Analyser le Web à l'aide d'un Web Crawler

GNU/Linux Magazine

n°

199

décembre 2016

Par

Tag(s)

Google

Web Crawler

Robot d'indexation

Êtes-vous prêts à concurrencer Google ? Sans aller jusqu'à obtenir un robot d'indexation rivalisant avec le géant du Web, je vous propose dans cet article de découvrir comment arpenter le Web à l'aide d'un Web Crawler, collecter des données et les analyser.

Pour effectuer des recherches sur le Web, il faut avoir réalisé auparavant une indexation de manière à fournir rapidement un résultat à une requête donnée. C'est le travail effectué en amont par tous les moteurs de recherche comme Google, Qwant, etc. Pour comprendre comment fonctionnent ces robots qui parcourent inlassablement le Web pour collecter des données et les indexer, nous développons notre propre web crawler et son moteur d'indexation associé.

Vous vous demandez comment fonctionne un « robot d'indexation » (on peut trouver web crawler comme mauvaise traduction en anglais) ? C'est justement le sujet que nous allons aborder dans cet article en commençant par cerner les actions affectées à ce robot, ce qui nous permettra de…

La suite est réservée aux abonnés. Il vous reste 97% à découvrir.

Déjà abonné ? Se connecter

Accédez à tous les contenus de Connect en illimité
Découvrez des listes de lecture et des contenus Premium
Consultez les nouveaux articles en avant-première

Envie de lire la suite ? Rejoignez Connect

Je m'abonne maintenant

Article rédigé par

Colombo Tristan

Coordinateur/Enseignant filière informatique numérique, CCI Provence Alpes Côte d'Azur

706 articles

Par le(s) même(s) auteur(s)

Plus d'article de cet auteur

Contrôler un serveur avec des SMS

GNU/Linux Magazine

HS n°

118

février 2022

Par

Colombo Tristan

Système

Embarqué

Utiliser des SMS pour communiquer avec un serveur peut paraître assez loufoque à notre époque. Pourtant, cela peut être très utile quand l’utilisateur final n’est pas un informaticien et que l’on ne souhaite pas nécessairement développer une application spécifique.

Lire l'article

Création de modèles de documents LaTeX

GNU/Linux Magazine

n°

255

janvier 2022

Par

Colombo Tristan

Bureautique

Lorsque l’on rédige un document en LaTeX, on se base nécessairement sur un modèle. Dans cet article, nous allons voir comment créer nos propres modèles de documents.

Lire l'article

Jouons avec le bytecode Python !

GNU/Linux Magazine

n°

255

janvier 2022

Par

Colombo Tristan

Code

Comme tout développeur Python le sait (en tout cas, il faut l'espérer), Python est un langage semi-interprété compilé dans un pseudo-code, le bytecode, et exécuté dans une machine virtuelle. Voyons dans cet article comment le modifier à la volée.

Lire l'article

Édito

GNU/Linux Magazine

n°

255

janvier 2022

Par

Colombo Tristan

Bodor Denis

Dans des temps anciens, les logiciels propriétaires et les logiciels open source se menaient une guerre sévère. Ces temps-là sont désormais révolus. On ne peut pas dire que l’un ou l’autre bord ait gagné, mais en tout cas, il n’existe plus de tension aussi forte entre les partisans des deux camps. On peut se dire que c’est l’open source qui a gagné, qui a finalement été accepté. Mais c’est sans doute oublier un peu vite que l’on peut établir une distinction entre logiciel open source et logiciel libre, le premier profitant de la philosophie du second à des fins purement pécuniaires.

Lire l'article

Les listes de lecture

Python niveau débutant

9 article(s) - ajoutée le 01/07/2020

Code

Vous désirez apprendre le langage Python, mais ne savez pas trop par où commencer ? Cette liste de lecture vous permettra de faire vos premiers pas en découvrant l'écosystème de Python et en écrivant de petits scripts.

Au pays des algorithmes

11 article(s) - ajoutée le 01/07/2020

Algo

La base de tout programme effectuant une tâche un tant soit peu complexe est un algorithme, une méthode permettant de manipuler des données pour obtenir un résultat attendu. Dans cette liste, vous pourrez découvrir quelques spécimens d'algorithmes.

Analyse de données en Python

10 article(s) - ajoutée le 01/07/2020

Code

À quoi bon se targuer de posséder des pétaoctets de données si l'on est incapable d'analyser ces dernières ? Cette liste vous aidera à "faire parler" vos données.

Plus de listes de lecture