Automatisation de l'extraction d'information d'une page web nécessitant une authentification

GNU/Linux Magazine

n°

229

septembre 2019

Par

Colombo Tristan

Code

Tag(s)

JavaScript

Puppeteer

Il existe de nombreuses méthodes pour récolter des données depuis une page web. Dans cet article, nous allons voir comment faire cela en JavaScript avec un navigateur masqué. Nous visons une page nécessitant une authentification.

Nous avons déjà abordé le thème du web scraping dans Linux Magazine [1] en Python ou encore plus récemment, dans Hackable [2] en C. Dans cet article, nous allons suivre une autre voie, celle du JavaScript et de NodeJS qui, grâce au module Puppeteer [3][4], va énormément nous simplifier la tâche.

Pour extraire des données de manière pertinente, il faut… des données ! J'ai choisi comme cible le site permettant d'accéder à l'emploi du temps de mon fils. L'intérêt est de pouvoir générer automatiquement des alertes lorsque l'emploi du temps est modifié (absence de professeur, cours décalé, etc.). Vous me direz sans doute que l'exemple, bien que pertinent, est inutile puisque cette fonctionnalité est nécessairement intégrée dans le logiciel du collège. Oui, c'est vrai. Mais ce logiciel étant développé…

La suite est réservée aux abonnés. Il vous reste 96% à découvrir.

Déjà abonné ? Se connecter

Accédez à tous les contenus de Connect en illimité
Découvrez des listes de lecture et des contenus Premium
Consultez les nouveaux articles en avant-première

Envie de lire la suite ? Rejoignez Connect

Je m'abonne maintenant

Automatisation de l'extraction d'information d'une page web nécessitant une authentification

Article rédigé par

Colombo Tristan