Lâchez vos agents sur la Console de Recherche Google !

Spécialité(s)


Résumé

Comment organiser un projet mettant en œuvre du web scraping ? Pour répondre à cette question, le plus simple est de se confronter réellement à un problème d’extraction de données, et de voir comment l’analyser et le résoudre.


Après avoir vu tous les aspects plutôt théoriques du web scraping, nous allons nous pencher sur un cas pratique qui va nous permettre de rencontrer quelques-unes des difficultés qui peuvent survenir lors de l’extraction de données. Le problème que j’ai retenu est un cas réel et la solution présentée est actuellement utilisée pour obtenir des informations sur les articles les plus recherchés sur Google, puis lus sur notre plateforme de documentation en ligne Connect.

Google Search Console permet d’obtenir de nombreuses informations sur un site, y compris donc le nombre de pages vues (rapport Performances, onglet Pages). L’objectif va être de collecter les URL des articles ainsi que le nombre de chargements, puis pour chaque URL, d’extraire des données sur l’article (titre, auteur, etc.) et de classer les résultats par magazine.

Notre objectif est simple, mais avant de se lancer, il faut bien suivre et analyser le cheminement que devra effectuer notre...

Cet article est réservé aux abonnés. Il vous reste 97% à découvrir.
S'abonner à Connect
  • Accédez à tous les contenus de Connect en illimité
  • Découvrez des listes de lecture et des contenus Premium
  • Consultez les nouveaux articles en avant-première
Je m'abonne


Article rédigé par

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous