GNU/Linux Magazine Hors-série N°

Big data - Du stockage au traitement...

Février/Mars 2022

Introduction au dossier : Big data - Du Stockage au traitement...

Lorsque les données « pleuvent » de différentes sources, le volume est tel qu’il faut adapter ses outils pour pouvoir les stocker et les utiliser.

Dans ce numéro...

Édito

Par La rédaction

GNU/Linux Magazine

HS n°

118

février 2022

| La rédaction

Big Data ou juste Data ? Ce terme qu'on entend partout (tout comme le malheureux « la data ») n'est pas uniquement un buzzword, mais le définir clairement est délicat d'un point de vue technique. La masse de données n'a cessé d'augmenter depuis les toutes premières heures de l'informatique. Le PDP-7 sur lequel a été créé UNIX dans les années 70 n'avait que 8192 mots de 18 bits en guise de mémoire, le premier IBM PC en 1981 pouvait supporter 256 Ko de RAM et très récemment, il était encore impensable d'utiliser plus de 2 Go de RAM. Il en va de même pour le stockage, les images, les bases de données, les volumes de transferts, les métadonnées... Tout grossit, tout devient de plus en plus big.

> Lire l'extrait

Côté livres...

Par La rédaction

Code

GNU/Linux Magazine

HS n°

118

février 2022

| La rédaction

Voici une sélection d'ouvrages pour la plupart récemment sortis ou sur le point de sortir et qui ont attiré notre attention.

> Lire l'extrait

Auto-encodeur variationnel avec Keras

Par Stark Anastasia

GNU/Linux Magazine

HS n°

118

février 2022

| Stark Anastasia

Dans cet article, nous allons voir comment coder un auto-encodeur variationnel étape par étape. Nous passerons des connaissances théoriques et de l'intuition sur les auto-encodeurs probabilistes de l'article précédent [1] de cette série au pseudo-code et enfin, à la mise en œuvre à l'aide de la bibliothèque TensorFlow.

> Lire l'extrait

Hadoop : l’écosystème Big Data

Par Corral Gallego José

Data / Big Data

GNU/Linux Magazine

HS n°

118

février 2022

| Corral Gallego José

Hadoop est un écosystème complet permettant d’adresser l’ensemble des problématiques Big Data : stockage non structuré et structuré, traitement et analyse de données, et Machine Learning. Parti de la motivation de rendre accessibles ces environnements, il est open source, modulaire, facile à déployer, administrable, et fournit de multiples accès à travers de nombreux langages et frameworks. Son architecture permet la flexibilité totale sur l’infrastructure, et garantit un coût de possession faible tout en apportant la scalabilité, la haute disponibilité et la sécurisation des données.

> Lire l'extrait

Big Data avec Apache Cassandra

Par Corral Gallego José

Data / Big Data

GNU/Linux Magazine

HS n°

118

février 2022

| Corral Gallego José

Mettez en œuvre très facilement Cassandra, une base de données NoSQL de référence, sans limites de volumes (ou presque), capable de gérer des données non structurées, avec une utilisation proche de SQL et la capacité de traitement distribué.

> Lire l'extrait

Analyse de données avec Spark

Par Corral Gallego José

Data / Big Data

GNU/Linux Magazine

HS n°

118

février 2022

| Corral Gallego José

Avec l’augmentation des volumes de données générées, collectées et stockées, leur traitement devient un écueil technique majeur. Que ce soit pour de l’analyse descriptive ou des traitements de Machine Learning, les solutions habituelles ne suffisent plus. Une solution open source de référence répondant à cette problématique est Apache Spark : son utilisation très simple permet facilement de passer à l’échelle du Big Data.

> Lire l'extrait

Open Data : utilisation de données publiques

Par Bridon Constant

Data / Big Data

GNU/Linux Magazine

HS n°

118

février 2022

| Bridon Constant

À l’aide de différents services publics, il est possible de manipuler des données diversifiées en volumes conséquents, sans en assurer ni la collecte ni le rafraîchissement, et construire des services innovants

> Lire l'extrait

Stockage efficace de données sous PostgreSQL

Par Lelarge Guillaume

Data / Big Data

GNU/Linux Magazine

HS n°

118

février 2022

| Lelarge Guillaume

Stocker des données dans une base PostgreSQL est assez simple : un CREATE TABLE, et c’est parti pour les insertions. Cependant, même si un CREATE TABLE semble assez simple, réfléchir à la construction de cet ordre SQL est important. Le type des données et l’ordre des colonnes jouent un rôle important sur la volumétrie de la table, et donc sur ses performances.

> Lire l'extrait

Base de données orientée graphe : Neo, puissance 4

Par Baton Jérôme

Data / Big Data

GNU/Linux Magazine

HS n°

118

février 2022

| Baton Jérôme

Il ne sera pas question du nouvel opus de la matrice ici, mais de Neo4j qui revient encore plus fort dans sa version 4.Dans de précédents numéros (voir [2] et [3]), je vous ai présenté les BDDDTG (les bases de données de type graphe), et plus spécifiquement Neo4j [1]. L’acronyme est de moi, les trois derniers caractères me rappelleront toujours l’effet produit par la découverte des graphes après des années d’utilisation de bases dites relationnelles.

> Lire l'extrait

Contrôler un serveur avec des SMS

Par Colombo Tristan

Système Embarqué

GNU/Linux Magazine

HS n°

118

février 2022

| Colombo Tristan

Utiliser des SMS pour communiquer avec un serveur peut paraître assez loufoque à notre époque. Pourtant, cela peut être très utile quand l’utilisateur final n’est pas un informaticien et que l’on ne souhaite pas nécessairement développer une application spécifique.

> Lire l'extrait

Acheter ce numéro en version papier

J'achète ce numéro

Accès par numéro hors-série

124

Développement web avec PHP & Symfony

123

Rust par la pratique !

122

Dossier spécial C++20 - Tout ce que vous devez savoir en pratique sur le nouveau standard !

121

Introduction à la Télémétrie avec OpenTelemetry

120

Créez vos interfaces graphiques & IHM en Python

119

Les nouvelles approches du développement web

118

Big data - Du stockage au traitement...

117

Les bases de l'IA - Bien débuter en Intelligence Artificielle

116

Les cryptomonnaies en pratique

115

Hyper automatisation

114

Déployez vos agents sur la Toile... Web scraping & agents de recherche

113

Code Legacy ...ou comment maintenir vos vieux codes encore en production

112

Spécial développeur : la boîte à outils indispensable !

111

Débogage : outils et méthodes pour traquer les erreurs

110

Python 3 pour débuter en programmation

109

Programmez avec un moteur 3D !

108

Codez une fois, développez partout !

107

GIT - Maîtrisez le versionning de code

106

Initiez-vous au Machine Learning en pratique avec TensorFlow et Keras

105

Spécial DevOps - La boîte outils indispensable !

104

Conteneurs : utilisation avancée & microservices

103

Développez des extensions & plugins pour améliorer vos applications

102

Scripts Shell : bonnes pratiques et techniques avancées

101

Big Data & Data Mining : analysez vos données !

100

Deep Learning : de la théorie à la pratique

Comprendre les attaques sur le Wifi

Comprenez enfin tout sur... les conteneurs !

Les bonnes pratiques du développement sécurisé

Vision assistée par ordinateur avec OpenCV

Mémo Python - Saison 2 : 59 nouvelles recettes pour accélérer vos développements !

Machine Learning : le guide pratique pour démarrer en Intelligence Artificielle

Sécurisez votre infrastructure Linux

Le guide indispensable pour installer et configurer votre VPN

Créez, publiez & monétisez votre application avancée Android

Programmation réseau en Python

Maîtrisez la programmation de scripts Shell

Créez votre base de données MySQL MariaDB en 5 étapes

Kernel - Le guide pour plonger au coeur de votre système GNU/Linux

Mémo Python - 75 recettes pour accélérer vos développements

Node.js - Initiez-vous à la programmation serveur & desktop en JavaScript

Surveillance - Tester les techniques pour mieux se défendre !

Débutez en C++

Créez votre première application Android

Le guide pour apprendre à programmer en Java en 5 jours !

Le guide pour apprendre à programmer en C en 5 jours !

PHP efficace

Analyse de données & Big Data

Programmation orientée objet

Securité & Linux

Raspberry Pi

Les systèmes BSD

Python : niveau avancé à expert

Ligne de commandes

Je programme

Langage C

Exploiter au mieux votre projet open source

Serveurs, le guide pour créer et gérer vos services à la carte

MySQL et bases de données

Apache, le guide complet

Python avancé

Programmation : initiation, embarqué et microcontrôleurs

Apprenez à programmer en Go !

Ne quittez plus vos serveurs des yeux !

Créez vos applications Android comme un pro !

20 recettes pour développer vos applications Android

Django, le framework Python pour les perfectionnistes pressés...

ZEND Framework 2

Carnet de Root

Java

Spécial C et C++

Spécial PHP

Initiation à Python

Développement Android

Hacks, électronique & embarqué

Installation, configuration et optimisation de votre serveur web Apache

Incontournable Python

Besoin d'un serveur polyvalent, rapide et sur mesure ? Debian

Voyage au centre de l'embarqué

Focus sur les outils pour mieux exploiter Linux

Retour d'expériences pour sysadmin - 10 solutions concrètes

Introduction, configuration et utilisation avancée de PostgreSQL 8.4

Electronique, embarqué et hacks

Supervision et surveillance

Configurez et optimisez votre firewall

Explorez les richesses du langage Python

Spécialités

Magazines précédents

GNU/Linux-Magazine Hors-série N°117

Les bases de l'IA - Bien débuter en Intelligence Artificielle

GNU/Linux-Magazine Hors-série N°116

Les cryptomonnaies en pratique

GNU/Linux-Magazine Hors-série N°115

Hyper automatisation

Déployez vos agents sur la toile... Web scrapping & agents de recherche

GNU/Linux-Magazine Hors-série N°114

Déployez vos agents sur la Toile... Web scraping & agents de recherche

GNU/Linux-Magazine Hors-série N°113

Code Legacy ...ou comment maintenir vos vieux codes encore en production

GNU/Linux-Magazine Hors-série N°112

Spécial développeur : la boîte à outils indispensable !

Les derniers articles Premiums

Les derniers articles Premium

Bun.js : l’alternative à Node.js pour un développement plus rapide

Contenu Premium

Par

Blachowiak Thomas

Code

Web

Dans l’univers du développement backend, Node.js domine depuis plus de dix ans. Mais un nouveau concurrent fait de plus en plus parler de lui, il s’agit de Bun.js. Ce runtime se distingue par ses performances améliorées, sa grande simplicité et une expérience développeur repensée. Peut-il rivaliser avec Node.js et changer les standards du développement JavaScript ?

Ajouter à une liste de lecture

PostgreSQL au centre de votre SI avec PostgREST

Contenu Premium

Par

Auverlot Olivier

Data / Big Data

Web

Dans un système d’information, il devient de plus en plus important d’avoir la possibilité d’échanger des données entre applications. Ce passage au stade de l’interopérabilité est généralement confié à des services web autorisant la mise en œuvre d’un couplage faible entre composants. C’est justement ce que permet de faire PostgREST pour les bases de données PostgreSQL.

Ajouter à une liste de lecture

La place de l’Intelligence Artificielle dans les entreprises

Contenu Premium

Par

Blachowiak Thomas

Société

L’intelligence artificielle est en train de redéfinir le paysage professionnel. De l’automatisation des tâches répétitives à la cybersécurité, en passant par l’analyse des données, l’IA s’immisce dans tous les aspects de l’entreprise moderne. Toutefois, cette révolution technologique soulève des questions éthiques et sociétales, notamment sur l’avenir des emplois. Cet article se penche sur l’évolution de l’IA, ses applications variées, et les enjeux qu’elle engendre dans le monde du travail.

Ajouter à une liste de lecture

Petit guide d’outils open source pour le télétravail

Contenu Premium

Par

Samhi Jordan

Système

Ah le Covid ! Si en cette période de nombreux cas resurgissent, ce n’est rien comparé aux vagues que nous avons connues en 2020 et 2021. Ce fléau a contraint une large partie de la population à faire ce que tout le monde connaît sous le nom de télétravail. Nous avons dû changer nos habitudes et avons dû apprendre à utiliser de nombreux outils collaboratifs, de visioconférence, etc., dont tout le monde n’était pas habitué. Dans cet article, nous passons en revue quelques outils open source utiles pour le travail à la maison. En effet, pour les adeptes du costume en haut et du pyjama en bas, la communauté open source s’est démenée pour proposer des alternatives aux outils propriétaires et payants.

Ajouter à une liste de lecture