Maîtriser les techniques de web scraping

La collecte de données sur le Web, dont l'audience est initialement humaine, est une tâche parfaitement automatisable. Cette liste vous présente frameworks, codes et langages pour accomplir ce tour de force.
Type de liste de lecture
Cas pratiques
Niveau :
Débutant
Nombre d'articles :
5 article(s)
Thématique : CODE / ALGO / IA / BIG DATA / WEB Spécialités : Code Web

Découvrez notre liste de lecture Maîtriser les techniques de web scraping

Notre rédaction vous propose un ordre de lecture pensé pour faciliter la compréhension et progresser étape par étape.

Connectez-vous pour suivre votre progression dans la lecture des articles

Web scraping avec Puppeteer

Magazine
Marque
GNU/Linux Magazine
Numéro
255
Mois de parution
janvier 2022
Spécialité(s)
Résumé

Dans un précédent article [1], je vous avais montré comment scraper le contenu de pages HTML, grâce à NodeJS et à quelques packages complémentaires. La technique que j’avais utilisée fonctionnait très bien avec des pages statiques, mais elle se prêtait mal au scraping de pages générées dynamiquement. Pour régler ce problème, je vais vous présenter une alternative, reposant sur le projet Puppeteer, un package NPM très polyvalent.

Les différents frameworks de web scraping

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
114
Mois de parution
mai 2021
Spécialité(s)
Résumé

Il ne viendrait à l’idée à personne de nos jours de se lancer dans la récupération de données sur le Web sans s’appuyer sur un framework simplifiant la tâche et évitant de réinventer la roue (carrée). Voyons donc quelques outils indispensables permettant de mener à bien cette tâche.

Un bot qui surveille le Web et envoie des alertes

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
114
Mois de parution
mai 2021
Spécialité(s)
Résumé

De nos jours, lorsque l’on recherche une information, on se tourne immédiatement vers le Web. Ainsi, de très nombreuses informations sont mises à jour quotidiennement et il faut donc penser à visiter les sites les produisant, de manière à être au courant des dernières modifications. Et si nous codions un bot qui ferait cela pour nous ?

Web scraping avec Node.js

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
114
Mois de parution
mai 2021
Spécialité(s)
Résumé

Le web scraping, c’est l’activité qui consiste à gratter (to scrap) du code HTML pour en extraire des données exploitables. Node.js se prête particulièrement bien à l’exercice, aussi je vous propose d’apprendre à gratter de la donnée avec ce formidable outil.

Image
Editions Diamond
Titre
Plus de 20 ans d’expérience dans l’édition de contenus informatiques techniques
Texte

Éditeur de presse spécialisé dans l’open source, la programmation, la cybersécurité, l’électronique et l’embarqué,
les Éditions Diamond sont nées en 1995 avec l’objectif de développer une offre rédactionnelle technique de qualité basée
sur les retours d’expériences de professionnels et de passionnés du milieu au travers de nos publications :

• GNU/Linux Magazine
• MISC
• Linux Pratique
• Hackable

En 2013 nous lançons la plateforme de documentation numérique Connect qui permet aux lecteurs d’explorer plus de
10 ans de ressources techniques issues de ses magazines phares.

Continuellement mise à jour au fil des publications et enrichie avec du contenu exclusif, elle constitue un outil de veille
efficace pour les professionnels qui souhaitent s’informer et se former aux dernières technologies. Connect offre
aujourd’hui une réponse unique aux besoins informationnels :

• des développeurs avec GNU/Linux Magazine
• des administrateurs système et réseau avec Linux Pratique
• des experts en sécurité informatique avec MISC
• des professionnels et passionnés d’électronique numérique et d’embarqué avec Hackable.

Nous contacter