Analyser le Web à l'aide d'un Web Crawler

Magazine
Marque
GNU/Linux Magazine
Numéro
199
Mois de parution
décembre 2016
Spécialité(s)


Résumé
Êtes-vous prêts à concurrencer Google ? Sans aller jusqu'à obtenir un robot d'indexation rivalisant avec le géant du Web, je vous propose dans cet article de découvrir comment arpenter le Web à l'aide d'un Web Crawler, collecter des données et les analyser.



Pour effectuer des recherches sur le Web, il faut avoir réalisé auparavant une indexation de manière à fournir rapidement un résultat à une requête donnée. C'est le travail effectué en amont par tous les moteurs de recherche comme Google, Qwant, etc. Pour comprendre comment fonctionnent ces robots qui parcourent inlassablement le Web pour collecter des données et les indexer, nous développons notre propre web crawler et son moteur d'indexation associé.

Vous vous demandez comment fonctionne un « robot d'indexation » (on peut trouver web crawler comme mauvaise traduction en anglais) ? C'est justement le sujet que nous allons aborder dans cet article en commençant par cerner les actions affectées à ce robot, ce qui nous permettra de…

Cet article est réservé aux abonnés. Il vous reste 97% à découvrir.
S'abonner à Connect
  • Accédez à tous les contenus de Connect en illimité
  • Découvrez des listes de lecture et des contenus Premium
  • Consultez les nouveaux articles en avant-première
Je m'abonne


Article rédigé par

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous