Maîtriser les techniques de web scraping

Dans un précédent article [1], je vous avais montré comment scraper le contenu de pages HTML, grâce à NodeJS et à quelques packages complémentaires. La technique que j’avais utilisée fonctionnait très bien avec des pages statiques, mais elle se prêtait mal au scraping de pages générées dynamiquement. Pour régler ce problème, je vais vous présenter une alternative, reposant sur le projet Puppeteer, un package NPM très polyvalent.

Lire l'article

Les différents frameworks de web scraping

GNU/Linux Magazine

HS n°

mai 2021

Par

Colombo Tristan

Il ne viendrait à l’idée à personne de nos jours de se lancer dans la récupération de données sur le Web sans s’appuyer sur un framework simplifiant la tâche et évitant de réinventer la roue (carrée). Voyons donc quelques outils indispensables permettant de mener à bien cette tâche.

Lire l'article

Lâchez vos agents sur la Console de Recherche Google !

GNU/Linux Magazine

HS n°

mai 2021

Par

Colombo Tristan

Comment organiser un projet mettant en œuvre du web scraping ? Pour répondre à cette question, le plus simple est de se confronter réellement à un problème d’extraction de données, et de voir comment l’analyser et le résoudre.

Lire l'article

Un bot qui surveille le Web et envoie des alertes

GNU/Linux Magazine

HS n°

mai 2021

Par

Colombo Tristan

De nos jours, lorsque l’on recherche une information, on se tourne immédiatement vers le Web. Ainsi, de très nombreuses informations sont mises à jour quotidiennement et il faut donc penser à visiter les sites les produisant, de manière à être au courant des dernières modifications. Et si nous codions un bot qui ferait cela pour nous ?

Lire l'article

Web scraping avec Node.js

GNU/Linux Magazine

HS n°

mai 2021

Par

Jarrige Grégory