Il existe de nombreuses méthodes pour récolter des données depuis une page web. Dans cet article, nous allons voir comment faire cela en JavaScript avec un navigateur masqué. Nous visons une page nécessitant une authentification.
Nous avons déjà abordé le thème du web scraping dans Linux Magazine [1] en Python ou encore plus récemment, dans Hackable [2] en C. Dans cet article, nous allons suivre une autre voie, celle du JavaScript et de NodeJS qui, grâce au module Puppeteer [3][4], va énormément nous simplifier la tâche.
Pour extraire des données de manière pertinente, il faut… des données ! J'ai choisi comme cible le site permettant d'accéder à l'emploi du temps de mon fils. L'intérêt est de pouvoir générer automatiquement des alertes lorsque l'emploi du temps est modifié (absence de professeur, cours décalé, etc.). Vous me direz sans doute que l'exemple, bien que pertinent, est inutile puisque cette fonctionnalité est nécessairement intégrée dans le logiciel du collège. Oui, c'est vrai. Mais ce logiciel étant développé par une entreprise privée qui héberge également les données, le proviseur adjoint a décidé de ne stocker qu'un minimum d'informations et de n'activer...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première