Récolter des données web avec Scrapy

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
95
Mois de parution
mars 2018
Spécialité(s)


Résumé
L'objectif : Récolter la liste des articles des derniers numéros standard et hors-séries de GNU/Linux Magazine sur https://connect.ed-diamond.com/GNU-Linux-Magazine.

La solution

Nous aurons besoin de Scrapy :

$ sudo pip3 install scrapy

Nous commençons ensuite par créer un projet last_titles :

$ scrapy startproject last_titles

New Scrapy project 'last_tiles', using template directory '/usr/local/lib/python3.4/dist-packages/scrapy/templates/project', created in:

/home/tristan/.../src/last_titles


You can start your first spider with:

cd last_titles

scrapy genspider example example.com

Nous pouvons alors créer notre spider dans last_titles/last_titles/spiders/last_titles…

Cet article est réservé aux abonnés. Il vous reste 90% à découvrir.
S'abonner à Connect
  • Accédez à tous les contenus de Connect en illimité
  • Découvrez des listes de lecture et des contenus Premium
  • Consultez les nouveaux articles en avant-première
Je m'abonne


Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous