Automatisation de l'extraction d'information d'une page web nécessitant une authentification

Magazine
Marque
GNU/Linux Magazine
Numéro
229
Mois de parution
septembre 2019
Spécialité(s)


Résumé

Il existe de nombreuses méthodes pour récolter des données depuis une page web. Dans cet article, nous allons voir comment faire cela en JavaScript avec un navigateur masqué. Nous visons une page nécessitant une authentification.


Nous avons déjà abordé le thème du web scraping dans Linux Magazine [1] en Python ou encore plus récemment, dans Hackable [2] en C. Dans cet article, nous allons suivre une autre voie, celle du JavaScript et de NodeJS qui, grâce au module Puppeteer [3][4], va énormément nous simplifier la tâche.

Pour extraire des données de manière pertinente, il faut… des données ! J'ai choisi comme cible le site permettant d'accéder à l'emploi du temps de mon fils. L'intérêt est de pouvoir générer automatiquement des alertes lorsque l'emploi du temps est modifié (absence de professeur, cours décalé, etc.). Vous me direz sans doute que l'exemple, bien que pertinent, est inutile puisque cette fonctionnalité est nécessairement intégrée dans le logiciel du collège. Oui, c'est vrai. Mais ce logiciel étant développé par une entreprise privée qui héberge également les données, le proviseur adjoint a décidé de ne stocker qu'un minimum d'informations et de n'activer...

Cet article est réservé aux abonnés. Il vous reste 96% à découvrir.
S'abonner à Connect
  • Accédez à tous les contenus de Connect en illimité
  • Découvrez des listes de lecture et des contenus Premium
  • Consultez les nouveaux articles en avant-première
Je m'abonne


Article rédigé par

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous