Lâchez vos agents sur la Console de Recherche Google !

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
114
Mois de parution
mai 2021
Spécialités


Résumé

Comment organiser un projet mettant en œuvre du web scraping ? Pour répondre à cette question, le plus simple est de se confronter réellement à un problème d’extraction de données, et de voir comment l’analyser et le résoudre.


Après avoir vu tous les aspects plutôt théoriques du web scraping, nous allons nous pencher sur un cas pratique qui va nous permettre de rencontrer quelques-unes des difficultés qui peuvent survenir lors de l’extraction de données. Le problème que j’ai retenu est un cas réel et la solution présentée est actuellement utilisée pour obtenir des informations sur les articles les plus recherchés sur Google, puis lus sur notre plateforme de documentation en ligne Connect.

Google Search Console permet d’obtenir de nombreuses informations sur un site, y compris donc le nombre de pages vues (rapport Performances, onglet Pages). L’objectif va être de collecter les URL des articles ainsi que le nombre de chargements, puis pour chaque URL, d’extraire des données sur l’article (titre, auteur, etc.) et de classer les résultats par magazine.

Notre objectif est simple, mais avant de se lancer, il faut bien suivre et analyser le cheminement que devra effectuer notre...

Cet article est réservé aux abonnés. Il vous reste 97% à découvrir.
à partir de 21,65€ HT/mois/lecteur pour un accès 5 lecteurs à toute la plateforme
J'en profite


Articles qui pourraient vous intéresser...

Utilisez les énumérations en Python

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
115
Mois de parution
juillet 2021
Spécialités
Résumé

Il existe dans tout langage des éléments simples, pratiques, mais qui sont pourtant peu employés par les développeurs. En Python, les énumérations se retrouvent dans cette catégorie. Je vous propose dans cet article de découvrir leur intérêt.

Gérez vos projets Python avec Poetry

Magazine
Marque
GNU/Linux Magazine
Numéro
250
Mois de parution
juillet 2021
Spécialités
Résumé

« Un peu de poésie dans un monde de brutes », voilà ce que l'on pourrait se dire en lisant le nom de ce projet… pourtant, c'est à l'usage qu'il montre ses petits muscles et il vous deviendra rapidement indispensable !

Les bizarreries de l’isolation des IPC

Magazine
Marque
GNU/Linux Magazine
Numéro
250
Mois de parution
juillet 2021
Spécialités
Résumé

Le namespace IPC (Inter-Process Communication) isole les mécanismes de communication interprocessus (sémaphores, mémoire partagée et queues de messages) hérités d’UNIX Système V et bizarrement, seulement une partie de leurs pendants POSIX.

Des bots pour Discord

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
115
Mois de parution
juillet 2021
Spécialités
Résumé

T'as des bots, mon pote... Elles me bottent. Parfois simples lanceurs de dés ou générateurs de citations de films, les bots peuvent aussi être pensés comme de vrais outils d’automatisation. Qui n’a jamais eu envie de déployer en production avec un simple !deploy dans son outil de discussion d’équipe ? Venez découvrir comment le faire dans cet article !

Godot : tests unitaires et export Android

Magazine
Marque
GNU/Linux Magazine
Numéro
250
Mois de parution
juillet 2021
Spécialités
Résumé

Dans cette série d’articles [1] [2], nous avons découvert comment créer un jeu aussi complexe qu’un jeu d’aventure avec le moteur de jeu Godot. Dans cette dernière partie, nous verrons la finalisation du jeu : menu, tests et export.