Analyse de code HTML avec Beautiful Soup

Magazine
Marque
GNU/Linux Magazine
Numéro
134
Mois de parution
janvier 2011


Résumé
Beautiful Soup est un module Python qui permet d'analyser simplement du code HTML, même si ce dernier ne suit pas les normes. Il s'agit d'un outil qui pourra vous éviter une crise de nerfs lorsque vous tenterez de récupérer une information sur un site dont le HTML est le meilleur exemple de ce qu'il ne faut pas faire.

1. Le HTML, une langue vivante

Le HTML est un outil qui a permis à de nombreuses personnes de réaliser rapidement leur premier site web. Malheureusement, son côté permissif est un point noir pour les développeurs qui souhaitent extraire de l'information à partir d'un site web. Le XHTML aurait dû être une solution à cela, mais comme son ancêtre, un site dont le balisage ne suit pas la norme sera tout de même affiché par le navigateur.

1.1 Pourquoi l'utilisation des expressions rationnelles est une mauvaise idée ?

Lorsque l'on doit extraire de l'information d'un fichier HTML, le premier réflexe est souvent de passer par des expressions rationnelles (appelées...

Cet article est réservé aux abonnés. Il vous reste 90% à découvrir.
S'abonner à Connect
  • Accédez à tous les contenus de Connect en illimité
  • Découvrez des listes de lecture et des contenus Premium
  • Consultez les nouveaux articles en avant-première
Je m'abonne


Article rédigé par

Les derniers articles Premiums

Les derniers articles Premium

Bénéficiez de statistiques de fréquentations web légères et respectueuses avec Plausible Analytics

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Pour être visible sur le Web, un site est indispensable, cela va de soi. Mais il est impossible d’en évaluer le succès, ni celui de ses améliorations, sans établir de statistiques de fréquentation : combien de visiteurs ? Combien de pages consultées ? Quel temps passé ? Comment savoir si le nouveau design plaît réellement ? Autant de questions auxquelles Plausible se propose de répondre.

Quarkus : applications Java pour conteneurs

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Initié par Red Hat, il y a quelques années le projet Quarkus a pris son envol et en est désormais à sa troisième version majeure. Il propose un cadre d’exécution pour une application de Java radicalement différente, où son exécution ultra optimisée en fait un parfait candidat pour le déploiement sur des conteneurs tels que ceux de Docker ou Podman. Quarkus va même encore plus loin, en permettant de transformer l’application Java en un exécutable natif ! Voici une rapide introduction, par la pratique, à cet incroyable framework, qui nous offrira l’opportunité d’illustrer également sa facilité de prise en main.

De la scytale au bit quantique : l’avenir de la cryptographie

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Imaginez un monde où nos données seraient aussi insaisissables que le célèbre chat de Schrödinger : à la fois sécurisées et non sécurisées jusqu'à ce qu'un cryptographe quantique décide d’y jeter un œil. Cet article nous emmène dans les méandres de la cryptographie quantique, où la physique quantique n'est pas seulement une affaire de laboratoires, mais la clé d'un futur numérique très sécurisé. Entre principes quantiques mystérieux, défis techniques, et applications pratiques, nous allons découvrir comment cette technologie s'apprête à encoder nos données dans une dimension où même les meilleurs cryptographes n’y pourraient rien faire.

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous