GNU/Linux Magazine N°
Numéro
199

Créez un robot qui fouille le Web pour vous !

Temporalité
Décembre 2016
Image v3
Créez un robot qui fouille le Web pour vous !
Article mis en avant

Résumé
Êtes-vous prêts à concurrencer Google ? Sans aller jusqu'à obtenir un robot d'indexation rivalisant avec le géant du Web, je vous propose dans cet article de découvrir comment arpenter le Web à l'aide d'un Web Crawler, collecter des données et les analyser.

Dans ce numéro...


À quoi sert le Web si l'on ne peut pas le parcourir et trouver les informations que l'on souhaite ? Aujourd'hui, il suffit d'ouvrir un moteur de recherche (bien souvent Google) et de taper sa requête pour obtenir une réponse pertinente en quelques secondes... pour peu que l'on sache construire la requête correctement. Le fait d'obtenir cette information paraît naturel mais, pour les plus vieux d'entre nous (ou les moins jeunes devrais-je dire), rappelez-vous qu'il y a quelques dizaines d'années nous utilisions des annuaires (Yahoo! étant le premier d'entre eux).
PHP 7.1 est arrivé. Il ne s'agit pas d'une version majeure maquillée comme nous y avait habitué PHP 5, mais il apporte tout de même de nombreuses améliorations, renforçant la consistance du langage et améliorant le confort du développeur.
Depuis quelques numéros maintenant je parle dans ces colonnes de bonnes pratiques, de travail en équipe, de choses à faire et à ne pas faire. Pour conclure ce cycle, je vais terminer par un article essayant de donner des pistes si vous vous êtes reconnus dans le portrait du Mister Hyde que j'ai dépeint au cours de mes articles précédents.
La plupart des tutoriels et livres de programmation disposent d’un chapitre lié aux conseils sur la manière de nommer les variables, les fonctions, les commentaires, etc. Mais pourquoi diantre se tuer à essayer de respecter ces fichues règles alors que je peux aller droit au but ? Cette question, je suis sûr que tous nous nous la somme posée à nos débuts en programmation. La plupart d’entre nous a, avec le temps, fini par se faire un ensemble de règles personnelles pour quand même s'y retrouver dans le code lorsqu’il y a problème. Certains sont obligés de respecter des règles de codage [1] parce qu’il faut bien que leurs collègues du projet comprennent facilement. Nous allons voir dans la suite comment améliorer la qualité de son code source grâce aux standards de codage existants.
Les articles précédents [1-6] vous ont donné envie de créer vos propres codes QR ? Ce sera chose faite ici même, pour le moment on prépare les données binaires.
Et voilà le dernier article de cette longue série sur les codes QR. À son issue, nous saurons les dessiner.
Dans les années 80, nous nous connections sur les ordinateurs distants en utilisant telnet ou rlogin. Ces protocoles souffrent de leur ancienneté. En particulier, ils n'utilisent pas de technique de chiffrement. Depuis, les connexions à distance reposent principalement sur ssh ou un autre VPN. Pour aller encore plus loin, il est possible de dissimuler les services avec la technique de port knocking.
Proxmox VE intègre un grand nombre de technologies du libre, de LXC à Ceph, et de KVM à GlusterFS. Aujourd'hui, coup d’œil sur ZFS et le moteur de cluster Corosync.
Le moteur de template open source Twig facilite le développement, la sécurisation et la maintenance d'applications web PHP. Il est très simple à installer et à prendre en main.
Il est parfois nécessaire de convertir un fichier d'un langage de balisage vers un autre : de Markdown vers du HTML, d'Org-mode vers LaTeX, etc. Pandoc est un outil permettant ce type de conversion, et il est capable de gérer un nombre impressionnant de formats différents. Que faire si l'on souhaite utiliser un format ésotérique inconnu de Pandoc ? Il est possible de l'étendre en Lua !
Un développeur débarquant du C (ou de la plupart des langages de programmation) en Python aura toujours la même expression horrifiée en découvrant l'absence de la structure switch/case. Mais pourquoi diable cette structure est-elle absente de Python ?
La WebCryptoAPI est une spécification W3C qui a pour principal objectif de fournir, aux programmeurs d'applications Web côté client, les principaux outils cryptographiques, et ceci à des fins de sécurité et de confidentialité.
Depuis son apparition, JavaScript a fait bien du chemin. D'un langage dont les seuls intérêts semblaient être de valider les formulaires et de créer des effets visuels sur les pages web, on est passé à un instrument permettant la réalisation d'applications web de qualité professionnelle avec un confort d'utilisation bien difficile à obtenir avec d'autres technologies. Cette mutation n'a été possible que par le développement continuel d'outils venant corriger ses défauts d'origine. Microsoft apporte sa contribution avec TypeScript, un méta-langage permettant d'appliquer des concepts salvateurs que l'on trouve couramment dans d'autres langages, mais qui font cruellement défaut à JavaScript.

Magazines précédents

Les derniers articles Premiums

Les derniers articles Premium

Stubby : protection de votre vie privée via le chiffrement des requêtes DNS

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Depuis les révélations d’Edward Snowden sur l’espionnage de masse des communications sur Internet par la NSA, un effort massif a été fait pour protéger la vie en ligne des internautes. Cet effort s’est principalement concentré sur les outils de communication avec la généralisation de l’usage du chiffrement sur le web (désormais, plus de 90 % des échanges se font en HTTPS) et l’adoption en masse des messageries utilisant des protocoles de chiffrement de bout en bout. Cependant, toutes ces communications, bien que chiffrées, utilisent un protocole qui, lui, n’est pas chiffré par défaut, loin de là : le DNS. Voyons ensemble quels sont les risques que cela induit pour les internautes et comment nous pouvons améliorer la situation.

Surveillez la consommation énergétique de votre code

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Être en mesure de surveiller la consommation énergétique de nos applications est une idée attrayante, qui n'est que trop souvent mise à la marge aujourd'hui. C'est d'ailleurs paradoxal, quand on pense que de plus en plus de voitures permettent de connaître la consommation instantanée et la consommation moyenne du véhicule, mais que nos chers ordinateurs, fleurons de la technologie, ne le permettent pas pour nos applications... Mais c'est aussi une tendance qui s'affirme petit à petit et à laquelle à terme, il devrait être difficile d'échapper. Car même si ce n'est qu'un effet de bord, elle nous amène à créer des programmes plus efficaces, qui sont également moins chers à exécuter.

Donnez une autre dimension à vos logs avec Vector

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Avoir des informations précises et détaillées sur ce qu’il se passe dans une infrastructure, et sur les applications qu'elle héberge est un enjeu critique pour votre business. Cependant, ça demande du temps, temps qu'on préfère parfois se réserver pour d'autres tâches jugées plus prioritaires. Mais qu'un système plante, qu'une application perde les pédales ou qu'une faille de sécurité soit découverte et c'est la panique à bord ! Alors je vous le demande, qui voudrait rester aveugle quand l'observabilité a tout à vous offrir ?

Body