Couverture
GNU/Linux Magazine
N°
Numéro
255
Techniques & outils de Web Scraping avancé
Temporalité
Janvier/Février 2022
Dans ce numéro
Image v3
Article mis en avant
Résumé
Dans un précédent article [1], je vous avais montré comment scraper le contenu de pages HTML, grâce à NodeJS et à quelques packages complémentaires. La technique que j’avais utilisée fonctionnait très bien avec des pages statiques, mais elle se prêtait mal au scraping de pages générées dynamiquement. Pour régler ce problème, je vais vous présenter une alternative, reposant sur le projet Puppeteer, un package NPM très polyvalent.