GNU/Linux Magazine N°
Numéro
199

Créez un robot qui fouille le Web pour vous !

Temporalité
Décembre 2016
Image v3
Créez un robot qui fouille le Web pour vous !
Article mis en avant

Résumé
Êtes-vous prêts à concurrencer Google ? Sans aller jusqu'à obtenir un robot d'indexation rivalisant avec le géant du Web, je vous propose dans cet article de découvrir comment arpenter le Web à l'aide d'un Web Crawler, collecter des données et les analyser.

Dans ce numéro...


À quoi sert le Web si l'on ne peut pas le parcourir et trouver les informations que l'on souhaite ? Aujourd'hui, il suffit d'ouvrir un moteur de recherche (bien souvent Google) et de taper sa requête pour obtenir une réponse pertinente en quelques secondes... pour peu que l'on sache construire la requête correctement. Le fait d'obtenir cette information paraît naturel mais, pour les plus vieux d'entre nous (ou les moins jeunes devrais-je dire), rappelez-vous qu'il y a quelques dizaines d'années nous utilisions des annuaires (Yahoo! étant le premier d'entre eux).
PHP 7.1 est arrivé. Il ne s'agit pas d'une version majeure maquillée comme nous y avait habitué PHP 5, mais il apporte tout de même de nombreuses améliorations, renforçant la consistance du langage et améliorant le confort du développeur.
Depuis quelques numéros maintenant je parle dans ces colonnes de bonnes pratiques, de travail en équipe, de choses à faire et à ne pas faire. Pour conclure ce cycle, je vais terminer par un article essayant de donner des pistes si vous vous êtes reconnus dans le portrait du Mister Hyde que j'ai dépeint au cours de mes articles précédents.
La plupart des tutoriels et livres de programmation disposent d’un chapitre lié aux conseils sur la manière de nommer les variables, les fonctions, les commentaires, etc. Mais pourquoi diantre se tuer à essayer de respecter ces fichues règles alors que je peux aller droit au but ? Cette question, je suis sûr que tous nous nous la somme posée à nos débuts en programmation. La plupart d’entre nous a, avec le temps, fini par se faire un ensemble de règles personnelles pour quand même s'y retrouver dans le code lorsqu’il y a problème. Certains sont obligés de respecter des règles de codage [1] parce qu’il faut bien que leurs collègues du projet comprennent facilement. Nous allons voir dans la suite comment améliorer la qualité de son code source grâce aux standards de codage existants.
Les articles précédents [1-6] vous ont donné envie de créer vos propres codes QR ? Ce sera chose faite ici même, pour le moment on prépare les données binaires.
Et voilà le dernier article de cette longue série sur les codes QR. À son issue, nous saurons les dessiner.
Dans les années 80, nous nous connections sur les ordinateurs distants en utilisant telnet ou rlogin. Ces protocoles souffrent de leur ancienneté. En particulier, ils n'utilisent pas de technique de chiffrement. Depuis, les connexions à distance reposent principalement sur ssh ou un autre VPN. Pour aller encore plus loin, il est possible de dissimuler les services avec la technique de port knocking.
Proxmox VE intègre un grand nombre de technologies du libre, de LXC à Ceph, et de KVM à GlusterFS. Aujourd'hui, coup d’œil sur ZFS et le moteur de cluster Corosync.
Le moteur de template open source Twig facilite le développement, la sécurisation et la maintenance d'applications web PHP. Il est très simple à installer et à prendre en main.
Il est parfois nécessaire de convertir un fichier d'un langage de balisage vers un autre : de Markdown vers du HTML, d'Org-mode vers LaTeX, etc. Pandoc est un outil permettant ce type de conversion, et il est capable de gérer un nombre impressionnant de formats différents. Que faire si l'on souhaite utiliser un format ésotérique inconnu de Pandoc ? Il est possible de l'étendre en Lua !
Un développeur débarquant du C (ou de la plupart des langages de programmation) en Python aura toujours la même expression horrifiée en découvrant l'absence de la structure switch/case. Mais pourquoi diable cette structure est-elle absente de Python ?
La WebCryptoAPI est une spécification W3C qui a pour principal objectif de fournir, aux programmeurs d'applications Web côté client, les principaux outils cryptographiques, et ceci à des fins de sécurité et de confidentialité.
Depuis son apparition, JavaScript a fait bien du chemin. D'un langage dont les seuls intérêts semblaient être de valider les formulaires et de créer des effets visuels sur les pages web, on est passé à un instrument permettant la réalisation d'applications web de qualité professionnelle avec un confort d'utilisation bien difficile à obtenir avec d'autres technologies. Cette mutation n'a été possible que par le développement continuel d'outils venant corriger ses défauts d'origine. Microsoft apporte sa contribution avec TypeScript, un méta-langage permettant d'appliquer des concepts salvateurs que l'on trouve couramment dans d'autres langages, mais qui font cruellement défaut à JavaScript.

Magazines précédents

Les derniers articles Premiums

Les derniers articles Premium

Cryptographie : débuter par la pratique grâce à picoCTF

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

L’apprentissage de la cryptographie n’est pas toujours évident lorsqu’on souhaite le faire par la pratique. Lorsque l’on débute, il existe cependant des challenges accessibles qui permettent de découvrir ce monde passionnant sans avoir de connaissances mathématiques approfondies en la matière. C’est le cas de picoCTF, qui propose une série d’épreuves en cryptographie avec une difficulté progressive et à destination des débutants !

Game & Watch : utilisons judicieusement la mémoire

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Au terme de l'article précédent [1] concernant la transformation de la console Nintendo Game & Watch en plateforme de développement, nous nous sommes heurtés à un problème : les 128 Ko de flash intégrés au microcontrôleur STM32 sont une ressource précieuse, car en quantité réduite. Mais heureusement pour nous, le STM32H7B0 dispose d'une mémoire vive de taille conséquente (~ 1,2 Mo) et se trouve être connecté à une flash externe QSPI offrant autant d'espace. Pour pouvoir développer des codes plus étoffés, nous devons apprendre à utiliser ces deux ressources.

Raspberry Pi Pico : PIO, DMA et mémoire flash

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Le microcontrôleur RP2040 équipant la Pico est une petite merveille et malgré l'absence de connectivité wifi ou Bluetooth, l'étendue des fonctionnalités intégrées reste très impressionnante. Nous avons abordé le sujet du sous-système PIO dans un précédent article [1], mais celui-ci n'était qu'une découverte de la fonctionnalité. Il est temps à présent de pousser plus loin nos expérimentations en mêlant plusieurs ressources à notre disposition : PIO, DMA et accès à la flash QSPI.

Body