Nous avons déjà abordé le thème du web scraping dans Linux Magazine [1] en Pythonou encore plus récemment, dans Hackable [2] en C. Dans cet article, nous allons suivre une autre voie, celle du JavaScript et de NodeJS qui, grâce au module Puppeteer[3][4], va énormément nous simplifier la tâche.
Pour extraire des données de manière pertinente, il faut… des données ! J'ai choisi comme cible le site permettant d'accéder à l'emploi du temps de mon fils. L'intérêt est de pouvoir générer automatiquement des alertes lorsque l'emploi du temps est modifié (absence de professeur, cours décalé, etc.). Vous me direz sans doute que l'exemple, bien que pertinent, est inutile puisque cette fonctionnalité est nécessairement intégrée dans le logiciel du collège. Oui, c'est vrai. Mais ce logiciel étant développé par une entreprise privée qui héberge également les données, le proviseur adjoint a décidé de ne stocker qu'un minimum d'informations et de n'activer qu'un...
