GNU/Linux Magazine N°
Numéro
199

Créez un robot qui fouille le Web pour vous !

Temporalité
Décembre 2016
Image v3
Créez un robot qui fouille le Web pour vous !
Article mis en avant

Résumé
Êtes-vous prêts à concurrencer Google ? Sans aller jusqu'à obtenir un robot d'indexation rivalisant avec le géant du Web, je vous propose dans cet article de découvrir comment arpenter le Web à l'aide d'un Web Crawler, collecter des données et les analyser.

Dans ce numéro...


À quoi sert le Web si l'on ne peut pas le parcourir et trouver les informations que l'on souhaite ? Aujourd'hui, il suffit d'ouvrir un moteur de recherche (bien souvent Google) et de taper sa requête pour obtenir une réponse pertinente en quelques secondes... pour peu que l'on sache construire la requête correctement. Le fait d'obtenir cette information paraît naturel mais, pour les plus vieux d'entre nous (ou les moins jeunes devrais-je dire), rappelez-vous qu'il y a quelques dizaines d'années nous utilisions des annuaires (Yahoo! étant le premier d'entre eux).
PHP 7.1 est arrivé. Il ne s'agit pas d'une version majeure maquillée comme nous y avait habitué PHP 5, mais il apporte tout de même de nombreuses améliorations, renforçant la consistance du langage et améliorant le confort du développeur.
Depuis quelques numéros maintenant je parle dans ces colonnes de bonnes pratiques, de travail en équipe, de choses à faire et à ne pas faire. Pour conclure ce cycle, je vais terminer par un article essayant de donner des pistes si vous vous êtes reconnus dans le portrait du Mister Hyde que j'ai dépeint au cours de mes articles précédents.
La plupart des tutoriels et livres de programmation disposent d’un chapitre lié aux conseils sur la manière de nommer les variables, les fonctions, les commentaires, etc. Mais pourquoi diantre se tuer à essayer de respecter ces fichues règles alors que je peux aller droit au but ? Cette question, je suis sûr que tous nous nous la somme posée à nos débuts en programmation. La plupart d’entre nous a, avec le temps, fini par se faire un ensemble de règles personnelles pour quand même s'y retrouver dans le code lorsqu’il y a problème. Certains sont obligés de respecter des règles de codage [1] parce qu’il faut bien que leurs collègues du projet comprennent facilement. Nous allons voir dans la suite comment améliorer la qualité de son code source grâce aux standards de codage existants.
Les articles précédents [1-6] vous ont donné envie de créer vos propres codes QR ? Ce sera chose faite ici même, pour le moment on prépare les données binaires.
Et voilà le dernier article de cette longue série sur les codes QR. À son issue, nous saurons les dessiner.
Dans les années 80, nous nous connections sur les ordinateurs distants en utilisant telnet ou rlogin. Ces protocoles souffrent de leur ancienneté. En particulier, ils n'utilisent pas de technique de chiffrement. Depuis, les connexions à distance reposent principalement sur ssh ou un autre VPN. Pour aller encore plus loin, il est possible de dissimuler les services avec la technique de port knocking.
Proxmox VE intègre un grand nombre de technologies du libre, de LXC à Ceph, et de KVM à GlusterFS. Aujourd'hui, coup d’œil sur ZFS et le moteur de cluster Corosync.
Le moteur de template open source Twig facilite le développement, la sécurisation et la maintenance d'applications web PHP. Il est très simple à installer et à prendre en main.
Il est parfois nécessaire de convertir un fichier d'un langage de balisage vers un autre : de Markdown vers du HTML, d'Org-mode vers LaTeX, etc. Pandoc est un outil permettant ce type de conversion, et il est capable de gérer un nombre impressionnant de formats différents. Que faire si l'on souhaite utiliser un format ésotérique inconnu de Pandoc ? Il est possible de l'étendre en Lua !
Un développeur débarquant du C (ou de la plupart des langages de programmation) en Python aura toujours la même expression horrifiée en découvrant l'absence de la structure switch/case. Mais pourquoi diable cette structure est-elle absente de Python ?
La WebCryptoAPI est une spécification W3C qui a pour principal objectif de fournir, aux programmeurs d'applications Web côté client, les principaux outils cryptographiques, et ceci à des fins de sécurité et de confidentialité.
Depuis son apparition, JavaScript a fait bien du chemin. D'un langage dont les seuls intérêts semblaient être de valider les formulaires et de créer des effets visuels sur les pages web, on est passé à un instrument permettant la réalisation d'applications web de qualité professionnelle avec un confort d'utilisation bien difficile à obtenir avec d'autres technologies. Cette mutation n'a été possible que par le développement continuel d'outils venant corriger ses défauts d'origine. Microsoft apporte sa contribution avec TypeScript, un méta-langage permettant d'appliquer des concepts salvateurs que l'on trouve couramment dans d'autres langages, mais qui font cruellement défaut à JavaScript.

Magazines précédents

Les derniers articles Premiums

Les derniers articles Premium

Donnez une autre dimension à vos logs avec Vector

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Avoir des informations précises et détaillées sur ce qu’il se passe dans une infrastructure, et sur les applications qu'elle héberge est un enjeu critique pour votre business. Cependant, ça demande du temps, temps qu'on préfère parfois se réserver pour d'autres tâches jugées plus prioritaires. Mais qu'un système plante, qu'une application perde les pédales ou qu'une faille de sécurité soit découverte et c'est la panique à bord ! Alors je vous le demande, qui voudrait rester aveugle quand l'observabilité a tout à vous offrir ?

Du graphisme dans un terminal ? Oui, avec sixel

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

On le voit de plus en plus, les outils en ligne de commandes s'étoffent peu à peu d'éléments graphiques sous la forme d'émojis UTF8. Plus qu'une simple décoration, cette pointe de « graphisme » dans un monde de texte apporte réellement un plus en termes d'expérience utilisateur et véhicule, de façon condensée, des informations utiles. Pour autant, cette façon de sortir du cadre purement textuel d'un terminal n'est en rien une nouveauté. Pour preuve, fin des années 80 DEC introduisait le VT340 supportant des graphismes en couleurs, et cette compatibilité existe toujours...

Game & Watch : utilisons judicieusement la mémoire

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Au terme de l'article précédent [1] concernant la transformation de la console Nintendo Game & Watch en plateforme de développement, nous nous sommes heurtés à un problème : les 128 Ko de flash intégrés au microcontrôleur STM32 sont une ressource précieuse, car en quantité réduite. Mais heureusement pour nous, le STM32H7B0 dispose d'une mémoire vive de taille conséquente (~ 1,2 Mo) et se trouve être connecté à une flash externe QSPI offrant autant d'espace. Pour pouvoir développer des codes plus étoffés, nous devons apprendre à utiliser ces deux ressources.

Body