Les articles de GNU/Linux Magazine Hors-Série N°101

Il y a des chercheurs et des ingénieurs qui, dans un travail long et fastidieux, cherchent des corrélations complexes, qui veulent faire parler les données et les lier entre elles. Leur objectif est d'extraire un maximum d'informations et de bien comprendre les articulations existant entre celles-ci.
PyText est un framework Python de TAL (Traitement Automatique du Langage Naturel) ou NLP en anglais (Natural Language Processing).
Voici une sélection d'ouvrages pour la plupart récemment sortis (ou sur le point de sortir) et qui ont attiré notre attention.
La version 11 de PostgreSQL est sortie le 18 octobre. Une première version corrective est déjà sortie et la seconde est prévue pour le 14 février 2019. Cette nouvelle version est principalement une version 10 améliorée : rien de bien révolutionnaire, mais de nouvelles fonctionnalités qui aident bien.
Il est très simple de faire dire tout et son contraire à des jeux de données. Il est même possible de s'amuser à trouver des corrélations entre des données qui n'ont absolument rien à voir : le nombre de buts marqués par une équipe de football et la consommation d'alcool des supporters, la fréquence de diffusion des titres d'un chanteur X et le taux de suicide chez les moins de 25 ans, etc. Je vous invite dans cet article à un voyage dans le monde merveilleux des « spurious correlations ».
On peut analyser ses données uniquement en mode texte, mais il arrivera toujours un moment où nous aurons besoin d'une visualisation graphique des résultats, quelque chose de tangible que l'on pourra appréhender simplement. Orange propose cela, mais également toutes les étapes préliminaires.
Lorsqu'Orange ne peut plus répondre à un besoin particulier, il reste encore la possibilité de créer un add-on dans lequel on pourra intégrer ses propres widgets.
Lorsque l'on analyse des données, l'objectif est la plupart du temps d'en extraire des connaissances. Le terme générique désignant cette activité est le Data Mining et une façon de le mettre en œuvre est la recherche de groupes de données.
Produire une représentation graphique de ses données, c'est se donner la possibilité de mettre en relief des relations qui ne sont pas forcément triviales et pour cela, de nombreux outils sont disponibles... et s'ils sont en plus capables de traiter des volumes importants de données, ce n'est que mieux !
Christian Surace est ingénieur de recherche en astrophysique au CNRS, dans un domaine où l'analyse de volumes importants de données est habituelle. Il répond ici à nos questions.
Le FaaS (pour Function as a Service), le « serverless », c'est un peu la terre promise en ce moment, et pour cause. Jamais les petits gars des opérations n'ont autant pu se réjouir d'avoir une infrastructure aussi bien huilée : de belles machines HCI (Hyper-Converged Infrastructure), sur lesquelles apparaissent comme des pop-corns de jolies machines virtuelles, et par-dessus tout ça un beau et flambant neuf Kubernetes. Alors oui, ils sont fiers, et ils ont de quoi : ils sont parvenus à maîtriser tout ça. D'un autre côté, ça arrange les petits gars du dev : puisque les ops sont si épanouis, qu'ils nous donnent l'occasion de nous épanouir à notre tour, et de ne nous consacrer qu'à notre code, pas au build, pas au pipeline, pas au déploiement, que le code ! Et c'est clairement la promesse que nous fait le serverless, mais Knative est-il en mesure de la tenir ?