1. Le HTML, une langue vivante
Le HTML est un outil qui a permis à de nombreuses personnes de réaliser rapidement leur premier site web. Malheureusement, son côté permissif est un point noir pour les développeurs qui souhaitent extraire de l'information à partir d'un site web. Le XHTML aurait dû être une solution à cela, mais comme son ancêtre, un site dont le balisage ne suit pas la norme sera tout de même affiché par le navigateur.
1.1 Pourquoi l'utilisation des expressions rationnelles est une mauvaise idée ?
Lorsque l'on doit extraire de l'information d'un fichier HTML, le premier réflexe est souvent de passer par des expressions rationnelles (appelées...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première