Big Data : gestion de gros volumes de données

Vous êtes-vous déjà demandé comment Facebook et Google gèrent leurs immenses masses de données tout en fournissant des services rapides ? Quelle serait votre solution pour gérer une base de données avec un trafic de données abondant ? Voici quelques éléments de réponse à ces questions.

Lire l'article

Gérez vos gros volumes de données avec Elasticsearch

SysOps Pratique

n°

125

mai 2021

Par

Lonkeng Toulepi Stéphane

Système

Data / Big Data

Elasticsearch est un SGBD NoSQL qui gagne en popularité ces dernières années de par sa flexibilité et sa gestion facile. Il intègre la notion de cluster qui permet de décentraliser une base de données afin de rendre les requêtes à celle-ci plus rapides, tout en assurant une sécurité plus qu’acceptable. Dans cet article, nous allons gérer une base de données Elasticsearch en nous focalisant principalement sur la manipulation des données. Nous supposerons que vous disposez déjà d’un cluster installé disposant bien évidemment d’un nœud master, comme vu précédemment [1].

Lire l'article

Les filtres de Bloom : un peu de bruit pour beaucoup [1] !

GNU/Linux Magazine

n°

231

novembre 2019

Par

Filiol Eric

Algo

Data / Big Data

Avec l’explosion des données (un fichier de logs, par exemple), chercher une information particulière déjà connue devient une tâche complexe. Or depuis 1970, il existe une technique particulièrement puissante qui permet de résoudre très efficacement ce problème : les filtres de Bloom. Cet article propose de les explorer et de montrer comment les implémenter.

Lire l'article

Big data avec awk

GNU/Linux Magazine

n°

220

novembre 2018

Par

Busser Alain

Code

Data / Big Data

Le langage de programmation awk est piloté par les données, ce qui le rend propice à des traitements sur les big data. À titre d'exemple, on va effectuer une étude statistique sur les chiffres du plus grand nombre premier actuellement connu, dont l'écriture comporte 77 232 917 chiffres « 1 » en base 2, et 23 249 425 chiffres en base 10 : sont-ils équirépartis, ou y a-t-il une structure cachée dans ce nombre gigantesque ?

Lire l'article

Visualisation interactive de données avec VisPy

GNU/Linux Magazine

HS n°

mai 2015

Par

Rossant Cyrille

Code

Data / Big Data

VisPy est une librairie Python de visualisation scientifique spécialisée dans les importants volumes de données et la 3D. VisPy utilise la puissance du processeur graphique (GPU) à l'aide de la librairie OpenGL pour afficher efficacement et de manière interactive des données volumineuses et complexes. Cet article propose une vue d'ensemble de VisPy pour la visualisation interactive de données.

Lire l'article

Indexez vos données sans limites à l'aide de Infinispan

GNU/Linux Magazine

HS n°

mai 2015

Par

Pelisse Romain

Code

Data / Big Data

Que ce soit à des fins statistiques, marketing, ou encore plus simplement pour la recherche scientifique, nos systèmes d'information doivent constamment stocker un nombre impressionnant de données, souvent de plusieurs téraoctets, tout en garantissant non seulement un temps d'accès défiant toute concurrence, mais aussi permettre de retrouver un échantillon ou un sous-ensemble de ces données tout aussi rapidement. Dans cet article, nous allons étudier comment Infinispan [1] permet d'implémenter de puissantes fonctions de recherche, à l'aide de l'une de ses récentes fonctionnalités de requête (« Query » [2]).

Lire l'article