GNU/Linux Magazine N°
Numéro
199

Créez un robot qui fouille le Web pour vous !

Temporalité
Décembre 2016
Image v3
Créez un robot qui fouille le Web pour vous !
Article mis en avant

Résumé
Êtes-vous prêts à concurrencer Google ? Sans aller jusqu'à obtenir un robot d'indexation rivalisant avec le géant du Web, je vous propose dans cet article de découvrir comment arpenter le Web à l'aide d'un Web Crawler, collecter des données et les analyser.

Dans ce numéro...


À quoi sert le Web si l'on ne peut pas le parcourir et trouver les informations que l'on souhaite ? Aujourd'hui, il suffit d'ouvrir un moteur de recherche (bien souvent Google) et de taper sa requête pour obtenir une réponse pertinente en quelques secondes... pour peu que l'on sache construire la requête correctement. Le fait d'obtenir cette information paraît naturel mais, pour les plus vieux d'entre nous (ou les moins jeunes devrais-je dire), rappelez-vous qu'il y a quelques dizaines d'années nous utilisions des annuaires (Yahoo! étant le premier d'entre eux).
PHP 7.1 est arrivé. Il ne s'agit pas d'une version majeure maquillée comme nous y avait habitué PHP 5, mais il apporte tout de même de nombreuses améliorations, renforçant la consistance du langage et améliorant le confort du développeur.
Depuis quelques numéros maintenant je parle dans ces colonnes de bonnes pratiques, de travail en équipe, de choses à faire et à ne pas faire. Pour conclure ce cycle, je vais terminer par un article essayant de donner des pistes si vous vous êtes reconnus dans le portrait du Mister Hyde que j'ai dépeint au cours de mes articles précédents.
La plupart des tutoriels et livres de programmation disposent d’un chapitre lié aux conseils sur la manière de nommer les variables, les fonctions, les commentaires, etc. Mais pourquoi diantre se tuer à essayer de respecter ces fichues règles alors que je peux aller droit au but ? Cette question, je suis sûr que tous nous nous la somme posée à nos débuts en programmation. La plupart d’entre nous a, avec le temps, fini par se faire un ensemble de règles personnelles pour quand même s'y retrouver dans le code lorsqu’il y a problème. Certains sont obligés de respecter des règles de codage [1] parce qu’il faut bien que leurs collègues du projet comprennent facilement. Nous allons voir dans la suite comment améliorer la qualité de son code source grâce aux standards de codage existants.
Les articles précédents [1-6] vous ont donné envie de créer vos propres codes QR ? Ce sera chose faite ici même, pour le moment on prépare les données binaires.
Et voilà le dernier article de cette longue série sur les codes QR. À son issue, nous saurons les dessiner.
Dans les années 80, nous nous connections sur les ordinateurs distants en utilisant telnet ou rlogin. Ces protocoles souffrent de leur ancienneté. En particulier, ils n'utilisent pas de technique de chiffrement. Depuis, les connexions à distance reposent principalement sur ssh ou un autre VPN. Pour aller encore plus loin, il est possible de dissimuler les services avec la technique de port knocking.
Proxmox VE intègre un grand nombre de technologies du libre, de LXC à Ceph, et de KVM à GlusterFS. Aujourd'hui, coup d’œil sur ZFS et le moteur de cluster Corosync.
Le moteur de template open source Twig facilite le développement, la sécurisation et la maintenance d'applications web PHP. Il est très simple à installer et à prendre en main.
Il est parfois nécessaire de convertir un fichier d'un langage de balisage vers un autre : de Markdown vers du HTML, d'Org-mode vers LaTeX, etc. Pandoc est un outil permettant ce type de conversion, et il est capable de gérer un nombre impressionnant de formats différents. Que faire si l'on souhaite utiliser un format ésotérique inconnu de Pandoc ? Il est possible de l'étendre en Lua !
Un développeur débarquant du C (ou de la plupart des langages de programmation) en Python aura toujours la même expression horrifiée en découvrant l'absence de la structure switch/case. Mais pourquoi diable cette structure est-elle absente de Python ?
La WebCryptoAPI est une spécification W3C qui a pour principal objectif de fournir, aux programmeurs d'applications Web côté client, les principaux outils cryptographiques, et ceci à des fins de sécurité et de confidentialité.
Depuis son apparition, JavaScript a fait bien du chemin. D'un langage dont les seuls intérêts semblaient être de valider les formulaires et de créer des effets visuels sur les pages web, on est passé à un instrument permettant la réalisation d'applications web de qualité professionnelle avec un confort d'utilisation bien difficile à obtenir avec d'autres technologies. Cette mutation n'a été possible que par le développement continuel d'outils venant corriger ses défauts d'origine. Microsoft apporte sa contribution avec TypeScript, un méta-langage permettant d'appliquer des concepts salvateurs que l'on trouve couramment dans d'autres langages, mais qui font cruellement défaut à JavaScript.

Magazines précédents

Les derniers articles Premiums

Les derniers articles Premium

Petit guide d’outils open source pour le télétravail

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Ah le Covid ! Si en cette période de nombreux cas resurgissent, ce n’est rien comparé aux vagues que nous avons connues en 2020 et 2021. Ce fléau a contraint une large partie de la population à faire ce que tout le monde connaît sous le nom de télétravail. Nous avons dû changer nos habitudes et avons dû apprendre à utiliser de nombreux outils collaboratifs, de visioconférence, etc., dont tout le monde n’était pas habitué. Dans cet article, nous passons en revue quelques outils open source utiles pour le travail à la maison. En effet, pour les adeptes du costume en haut et du pyjama en bas, la communauté open source s’est démenée pour proposer des alternatives aux outils propriétaires et payants.

Sécurisez vos applications web : comment Symfony vous protège des menaces courantes

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Les frameworks tels que Symfony ont bouleversé le développement web en apportant une structure solide et des outils performants. Malgré ces qualités, nous pouvons découvrir d’innombrables vulnérabilités. Cet article met le doigt sur les failles de sécurité les plus fréquentes qui affectent même les environnements les plus robustes. De l’injection de requêtes à distance à l’exécution de scripts malveillants, découvrez comment ces failles peuvent mettre en péril vos applications et, surtout, comment vous en prémunir.

Bash des temps modernes

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Les scripts Shell, et Bash spécifiquement, demeurent un standard, de facto, de notre industrie. Ils forment un composant primordial de toute distribution Linux, mais c’est aussi un outil de prédilection pour implémenter de nombreuses tâches d’automatisation, en particulier dans le « Cloud », par eux-mêmes ou conjointement à des solutions telles que Ansible. Pour toutes ces raisons et bien d’autres encore, savoir les concevoir de manière robuste et idempotente est crucial.

Présentation de Kafka Connect

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Un cluster Apache Kafka est déjà, à lui seul, une puissante infrastructure pour faire de l’event streaming… Et si nous pouvions, d’un coup de baguette magique, lui permettre de consommer des informations issues de systèmes de données plus traditionnels, tels que les bases de données ? C’est là qu’intervient Kafka Connect, un autre composant de l’écosystème du projet.

Body