Big Data : gestion de gros volumes de données

Les données sont partout et elles sont de plus en plus nombreuses ! Il faut être désormais capable de stocker et traiter des volumes de données importants. Vous découvrirez comment y parvenir grâce à cette liste.
Nombre d'articles :
6 article(s)
Type de liste de lecture
Cas pratiques
Niveau :
Débutant

Créez vos clusters avec Elasticsearch

Magazine
Marque
Linux Pratique
Numéro
124
Mois de parution
mars 2021
Spécialité(s)
Résumé

Vous êtes-vous déjà demandé comment Facebook et Google gèrent leurs immenses masses de données tout en fournissant des services rapides ? Quelle serait votre solution pour gérer une base de données avec un trafic de données abondant ? Voici quelques éléments de réponse à ces questions.

Gérez vos gros volumes de données avec Elasticsearch

Magazine
Marque
Linux Pratique
Numéro
125
Mois de parution
mai 2021
Spécialité(s)
Résumé

Elasticsearch est un SGBD NoSQL qui gagne en popularité ces dernières années de par sa flexibilité et sa gestion facile. Il intègre la notion de cluster qui permet de décentraliser une base de données afin de rendre les requêtes à celle-ci plus rapides, tout en assurant une sécurité plus qu’acceptable. Dans cet article, nous allons gérer une base de données Elasticsearch en nous focalisant principalement sur la manipulation des données. Nous supposerons que vous disposez déjà d’un cluster installé disposant bien évidemment d’un nœud master, comme vu précédemment [1].

Les filtres de Bloom : un peu de bruit pour beaucoup [1] !

Magazine
Marque
GNU/Linux Magazine
Numéro
231
Mois de parution
novembre 2019
Spécialité(s)
Résumé

Avec l’explosion des données (un fichier de logs, par exemple), chercher une information particulière déjà connue devient une tâche complexe. Or depuis 1970, il existe une technique particulièrement puissante qui permet de résoudre très efficacement ce problème : les filtres de Bloom. Cet article propose de les explorer et de montrer comment les implémenter.

Big data avec awk

Magazine
Marque
GNU/Linux Magazine
Numéro
220
Mois de parution
novembre 2018
Spécialité(s)
Résumé

Le langage de programmation awk est piloté par les données, ce qui le rend propice à des traitements sur les big data. À titre d'exemple, on va effectuer une étude statistique sur les chiffres du plus grand nombre premier actuellement connu, dont l'écriture comporte 77 232 917 chiffres « 1 » en base 2, et 23 249 425 chiffres en base 10 : sont-ils équirépartis, ou y a-t-il une structure cachée dans ce nombre gigantesque ?

Visualisation interactive de données avec VisPy

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
78
Mois de parution
mai 2015
Spécialité(s)
Résumé

VisPy est une librairie Python de visualisation scientifique spécialisée dans les importants volumes de données et la 3D. VisPy utilise la puissance du processeur graphique (GPU) à l'aide de la librairie OpenGL pour afficher efficacement et de manière interactive des données volumineuses et complexes. Cet article propose une vue d'ensemble de VisPy pour la visualisation interactive de données.

Indexez vos données sans limites à l'aide de Infinispan

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
78
Mois de parution
mai 2015
Spécialité(s)
Résumé

Que ce soit à des fins statistiques, marketing, ou encore plus simplement pour la recherche scientifique, nos systèmes d'information doivent constamment stocker un nombre impressionnant de données, souvent de plusieurs téraoctets, tout en garantissant non seulement un temps d'accès défiant toute concurrence, mais aussi permettre de retrouver un échantillon ou un sous-ensemble de ces données tout aussi rapidement. Dans cet article, nous allons étudier comment Infinispan [1] permet d'implémenter de puissantes fonctions de recherche, à l'aide de l'une de ses récentes fonctionnalités de requête (« Query » [2]).