Analyse de code HTML avec Beautiful Soup

Magazine
Marque
GNU/Linux Magazine
Numéro
134
Mois de parution
janvier 2011


Résumé
Beautiful Soup est un module Python qui permet d'analyser simplement du code HTML, même si ce dernier ne suit pas les normes. Il s'agit d'un outil qui pourra vous éviter une crise de nerfs lorsque vous tenterez de récupérer une information sur un site dont le HTML est le meilleur exemple de ce qu'il ne faut pas faire.

1. Le HTML, une langue vivante

Le HTML est un outil qui a permis à de nombreuses personnes de réaliser rapidement leur premier site web. Malheureusement, son côté permissif est un point noir pour les développeurs qui souhaitent extraire de l'information à partir d'un site web. Le XHTML aurait dû être une solution à cela, mais comme son ancêtre, un site dont le balisage ne suit pas la norme sera tout de même affiché par le navigateur.

1.1 Pourquoi l'utilisation des expressions rationnelles est une mauvaise idée ?

Lorsque l'on doit extraire de l'information d'un fichier HTML, le premier réflexe est souvent de passer par des expressions rationnelles (appelées...

Cet article est réservé aux abonnés. Il vous reste 90% à découvrir.
S'abonner à Connect
  • Accédez à tous les contenus de Connect en illimité
  • Découvrez chaque semaine un nouvel article premium
  • Consultez les nouveaux articles en avant-première
Je m'abonne


Article rédigé par

Les derniers articles Premiums

Les derniers articles Premium

Cryptographie : débuter par la pratique grâce à picoCTF

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

L’apprentissage de la cryptographie n’est pas toujours évident lorsqu’on souhaite le faire par la pratique. Lorsque l’on débute, il existe cependant des challenges accessibles qui permettent de découvrir ce monde passionnant sans avoir de connaissances mathématiques approfondies en la matière. C’est le cas de picoCTF, qui propose une série d’épreuves en cryptographie avec une difficulté progressive et à destination des débutants !

Game & Watch : utilisons judicieusement la mémoire

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Au terme de l'article précédent [1] concernant la transformation de la console Nintendo Game & Watch en plateforme de développement, nous nous sommes heurtés à un problème : les 128 Ko de flash intégrés au microcontrôleur STM32 sont une ressource précieuse, car en quantité réduite. Mais heureusement pour nous, le STM32H7B0 dispose d'une mémoire vive de taille conséquente (~ 1,2 Mo) et se trouve être connecté à une flash externe QSPI offrant autant d'espace. Pour pouvoir développer des codes plus étoffés, nous devons apprendre à utiliser ces deux ressources.

Raspberry Pi Pico : PIO, DMA et mémoire flash

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Le microcontrôleur RP2040 équipant la Pico est une petite merveille et malgré l'absence de connectivité wifi ou Bluetooth, l'étendue des fonctionnalités intégrées reste très impressionnante. Nous avons abordé le sujet du sous-système PIO dans un précédent article [1], mais celui-ci n'était qu'une découverte de la fonctionnalité. Il est temps à présent de pousser plus loin nos expérimentations en mêlant plusieurs ressources à notre disposition : PIO, DMA et accès à la flash QSPI.

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous