Récolter des données web avec Scrapy

GNU/Linux Magazine

HS n°

mars 2018

Par

Tag(s)

L'objectif : Récolter la liste des articles des derniers numéros standard et hors-séries de GNU/Linux Magazine sur https://connect.ed-diamond.com/GNU-Linux-Magazine.

La solution

Nous aurons besoin de Scrapy :

$ sudo pip3 install scrapy

Nous commençons ensuite par créer un projet last_titles :

$ scrapy startproject last_titles

New Scrapy project 'last_tiles', using template directory '/usr/local/lib/python3.4/dist-packages/scrapy/templates/project', created in:

/home/tristan/.../src/last_titles

You can start your first spider with:

cd last_titles

scrapy genspider example example.com

Nous pouvons alors créer notre spider dans last_titles/last_titles/spiders/last_titles…

La suite est réservée aux abonnés. Il vous reste 90% à découvrir.

Déjà abonné ? Se connecter

Accédez à tous les contenus de Connect en illimité

Découvrez des listes de lecture et des contenus Premium

Consultez les nouveaux articles en avant-première

Envie de lire la suite ? Rejoignez Connect
Je m'abonne maintenant

Par le(s) même(s) auteur(s)

Plus d'article de cet auteur

Contrôler un serveur avec des SMS

GNU/Linux Magazine

HS n°

118

février 2022

Par

Colombo Tristan

Système

Embarqué

Utiliser des SMS pour communiquer avec un serveur peut paraître assez loufoque à notre époque. Pourtant, cela peut être très utile quand l’utilisateur final n’est pas un informaticien et que l’on ne souhaite pas nécessairement développer une application spécifique.

Lire l'article

Édito

GNU/Linux Magazine

n°

255

janvier 2022

Par

Colombo Tristan

Bodor Denis

Dans des temps anciens, les logiciels propriétaires et les logiciels open source se menaient une guerre sévère. Ces temps-là sont désormais révolus. On ne peut pas dire que l’un ou l’autre bord ait gagné, mais en tout cas, il n’existe plus de tension aussi forte entre les partisans des deux camps. On peut se dire que c’est l’open source qui a gagné, qui a finalement été accepté. Mais c’est sans doute oublier un peu vite que l’on peut établir une distinction entre logiciel open source et logiciel libre, le premier profitant de la philosophie du second à des fins purement pécuniaires.

Lire l'article

Création de modèles de documents LaTeX

GNU/Linux Magazine

n°

255

janvier 2022

Par

Colombo Tristan

Bureautique

Lorsque l’on rédige un document en LaTeX, on se base nécessairement sur un modèle. Dans cet article, nous allons voir comment créer nos propres modèles de documents.

Lire l'article

Jouons avec le bytecode Python !

GNU/Linux Magazine

n°

255

janvier 2022

Par

Colombo Tristan

Code

Comme tout développeur Python le sait (en tout cas, il faut l'espérer), Python est un langage semi-interprété compilé dans un pseudo-code, le bytecode, et exécuté dans une machine virtuelle. Voyons dans cet article comment le modifier à la volée.

Lire l'article

Les listes de lecture

Python niveau débutant

9 article(s) - ajoutée le 01/07/2020

Code

Vous désirez apprendre le langage Python, mais ne savez pas trop par où commencer ? Cette liste de lecture vous permettra de faire vos premiers pas en découvrant l'écosystème de Python et en écrivant de petits scripts.

Au pays des algorithmes

11 article(s) - ajoutée le 01/07/2020

Algo

La base de tout programme effectuant une tâche un tant soit peu complexe est un algorithme, une méthode permettant de manipuler des données pour obtenir un résultat attendu. Dans cette liste, vous pourrez découvrir quelques spécimens d'algorithmes.

Analyse de données en Python

10 article(s) - ajoutée le 01/07/2020

Code

À quoi bon se targuer de posséder des pétaoctets de données si l'on est incapable d'analyser ces dernières ? Cette liste vous aidera à "faire parler" vos données.

Plus de listes de lecture

Récolter des données web avec Scrapy

La solution

Article rédigé par

Par le(s) même(s) auteur(s)

Les listes de lecture