Dans ce numéro...


Big Data ou juste Data ? Ce terme qu'on entend partout (tout comme le malheureux « la data ») n'est pas uniquement un buzzword, mais le définir clairement est délicat d'un point de vue technique. La masse de données n'a cessé d'augmenter depuis les toutes premières heures de l'informatique. Le PDP-7 sur lequel a été créé UNIX dans les années 70 n'avait que 8192 mots de 18 bits en guise de mémoire, le premier IBM PC en 1981 pouvait supporter 256 Ko de RAM et très récemment, il était encore impensable d'utiliser plus de 2 Go de RAM. Il en va de même pour le stockage, les images, les bases de données, les volumes de transferts, les métadonnées... Tout grossit, tout devient de plus en plus big.
Voici une sélection d'ouvrages pour la plupart récemment sortis ou sur le point de sortir et qui ont attiré notre attention.
Dans cet article, nous allons voir comment coder un auto-encodeur variationnel étape par étape. Nous passerons des connaissances théoriques et de l'intuition sur les auto-encodeurs probabilistes de l'article précédent [1] de cette série au pseudo-code et enfin, à la mise en œuvre à l'aide de la bibliothèque TensorFlow.
Hadoop est un écosystème complet permettant d’adresser l’ensemble des problématiques Big Data : stockage non structuré et structuré, traitement et analyse de données, et Machine Learning. Parti de la motivation de rendre accessibles ces environnements, il est open source, modulaire, facile à déployer, administrable, et fournit de multiples accès à travers de nombreux langages et frameworks. Son architecture permet la flexibilité totale sur l’infrastructure, et garantit un coût de possession faible tout en apportant la scalabilité, la haute disponibilité et la sécurisation des données.
Mettez en œuvre très facilement Cassandra, une base de données NoSQL de référence, sans limites de volumes (ou presque), capable de gérer des données non structurées, avec une utilisation proche de SQL et la capacité de traitement distribué.
Avec l’augmentation des volumes de données générées, collectées et stockées, leur traitement devient un écueil technique majeur. Que ce soit pour de l’analyse descriptive ou des traitements de Machine Learning, les solutions habituelles ne suffisent plus. Une solution open source de référence répondant à cette problématique est Apache Spark : son utilisation très simple permet facilement de passer à l’échelle du Big Data.
À l’aide de différents services publics, il est possible de manipuler des données diversifiées en volumes conséquents, sans en assurer ni la collecte ni le rafraîchissement, et construire des services innovants
Stocker des données dans une base PostgreSQL est assez simple : un CREATE TABLE, et c’est parti pour les insertions. Cependant, même si un CREATE TABLE semble assez simple, réfléchir à la construction de cet ordre SQL est important. Le type des données et l’ordre des colonnes jouent un rôle important sur la volumétrie de la table, et donc sur ses performances.
Il ne sera pas question du nouvel opus de la matrice ici, mais de Neo4j qui revient encore plus fort dans sa version 4.Dans de précédents numéros (voir [2] et [3]), je vous ai présenté les BDDDTG (les bases de données de type graphe), et plus spécifiquement Neo4j [1]. L’acronyme est de moi, les trois derniers caractères me rappelleront toujours l’effet produit par la découverte des graphes après des années d’utilisation de bases dites relationnelles.
Utiliser des SMS pour communiquer avec un serveur peut paraître assez loufoque à notre époque. Pourtant, cela peut être très utile quand l’utilisateur final n’est pas un informaticien et que l’on ne souhaite pas nécessairement développer une application spécifique.

Magazines précédents

Les cryptomonnaies en pratique
GNU/Linux-Magazine Hors-série N°116
Les cryptomonnaies en pratique
Hyper automatisation
GNU/Linux-Magazine Hors-série N°115
Hyper automatisation

Les derniers articles Premiums

Les derniers articles Premium

Le combo gagnant de la virtualisation : QEMU et KVM

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

C’est un fait : la virtualisation est partout ! Que ce soit pour la flexibilité des systèmes ou bien leur sécurité, l’adoption de la virtualisation augmente dans toutes les organisations depuis des années. Dans cet article, nous allons nous focaliser sur deux technologies : QEMU et KVM. En combinant les deux, il est possible de créer des environnements de virtualisation très robustes.

Brève introduction pratique à ZFS

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Il est grand temps de passer à un système de fichiers plus robuste et performant : ZFS. Avec ses fonctionnalités avancées, il assure une intégrité des données inégalée et simplifie la gestion des volumes de stockage. Il permet aussi de faire des snapshots, des clones, et de la déduplication, il est donc la solution idéale pour les environnements de stockage critiques. Découvrons ensemble pourquoi ZFS est LE choix incontournable pour l'avenir du stockage de données.

Générez votre serveur JEE sur-mesure avec Wildfly Glow

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Et, si, en une ligne de commandes, on pouvait reconstruire son serveur JEE pour qu’il soit configuré, sur mesure, pour les besoins des applications qu’il embarque ? Et si on pouvait aller encore plus loin, en distribuant l’ensemble, assemblé sous la forme d’un jar exécutable ? Et si on pouvait même déployer le tout, automatiquement, sur OpenShift ? Grâce à Wildfly Glow [1], c’est possible ! Tout du moins, pour le serveur JEE open source Wildfly [2]. Démonstration dans cet article.

Body