Pour effectuer des recherches sur le Web, il faut avoir réalisé auparavant une indexation de manière à fournir rapidement un résultat à une requête donnée. C'est le travail effectué en amont par tous les moteurs de recherche comme Google, Qwant, etc. Pour comprendre comment fonctionnent ces robots qui parcourent inlassablement le Web pour collecter des données et les indexer, nous développons notre propre web crawler et son moteur d'indexation associé.
Vous vous demandez comment fonctionne un « robot d'indexation » (on peut trouver web crawler comme mauvaise traduction en anglais) ? C'est justement le sujet que nous allons aborder dans cet article en commençant par cerner les actions affectées à ce robot, ce qui nous permettra de développer notre propre web crawler (qui n'est pas un robot d'indexation, mais un robot de collecte d'informations) et ainsi de comprendre un peu mieux le fonctionnement d'un moteur de recherche (même si bien entendu nous ne pourrons...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première