Analyser le Web à l'aide d'un Web Crawler

Magazine
Marque
GNU/Linux Magazine
Numéro
199
Mois de parution
décembre 2016
Domaines


Résumé
Êtes-vous prêts à concurrencer Google ? Sans aller jusqu'à obtenir un robot d'indexation rivalisant avec le géant du Web, je vous propose dans cet article de découvrir comment arpenter le Web à l'aide d'un Web Crawler, collecter des données et les analyser.



Pour effectuer des recherches sur le Web, il faut avoir réalisé auparavant une indexation de manière à fournir rapidement un résultat à une requête donnée. C'est le travail effectué en amont par tous les moteurs de recherche comme Google, Qwant, etc. Pour comprendre comment fonctionnent ces robots qui parcourent inlassablement le Web pour collecter des données et les indexer, nous développons notre propre web crawler et son moteur d'indexation associé.

Vous vous demandez comment fonctionne un « robot d'indexation » (on peut trouver web crawler comme mauvaise traduction en anglais) ? C'est justement le sujet que nous allons aborder dans cet article en commençant par cerner les actions affectées à ce robot, ce qui nous permettra de développer notre propre web crawler (qui n'est pas un robot d'indexation, mais un robot de collecte d'informations) et ainsi de comprendre un peu mieux le fonctionnement d'un moteur de recherche (même si bien entendu nous ne pourrons...

Cet article est réservé aux abonnés. Il vous reste 97% à découvrir.
à partir de 21,65€ HT/mois/lecteur pour un accès 5 lecteurs à toute la plateforme
J'en profite


Articles qui pourraient vous intéresser...

Persistance et objets en C++

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
114
Mois de parution
mai 2021
Domaines
Résumé

Au travers de deux articles [1-2] sur les principes de l’orienté objet en C++, nous avions abordé encapsulation, héritage, et polymorphisme. Nous proposons dans ce nouvel article les classes de base pour gérer la persistance d’objets dans des fichiers. Ces classes utilisent les principes énoncés ci-dessus et présentent des stratégies via la généricité. Un exemple de stratégie pour stocker en binaire pourra être redéfini pour d’autres stratégies, comme un stockage en XML.

Application réseau avec Erlang : utilisation du protocole UDP

Magazine
Marque
GNU/Linux Magazine
Numéro
248
Mois de parution
mai 2021
Domaines
Résumé

La société Ericsson, pionnière dans le domaine des télécommunications, a été à l’origine de la création du langage Erlang. La bibliothèque standard offre toutes les méthodes pour gérer les connexions réseau, que ce soit pour créer son protocole au-dessus de TCP, UDP ou encore TLS, mais aussi en réutilisant des implémentations d’ores et déjà existantes au sein de l’écosystème fourni avec la release.

Flutter : applications mobiles, web et desktop

Magazine
Marque
GNU/Linux Magazine
Numéro
248
Mois de parution
mai 2021
Domaines
Résumé

Flutter est un framework permettant de développer des applications natives pour Linux, Windows, macOS, Android, iOS et le Web à partir du même code source. Un moteur graphique OpenGL ultra performant et la compilation native en ARM, x86-64 ainsi que WebAssembly, associés à un cycle de développement agile et hyper intuitif, en font la solution ultime pour les créateurs d’applications. L’essayer, c’est l’adopter !