GNU/Linux Magazine Hors-série N°

Analyse de données & Big Data

Mai/Juin 2015

Analyse de données et Big Data : la préface du guide pour manipuler et analyser vos données efficacement

Pour le meilleur et pour le pire, nous vivons dans un monde de données. Que cela soit bénéfique ou néfaste, suivant l'origine des données ou leur utilisation, nous n'y pouvons rien changer, c'est un fait : nous produisons de plus en plus de données. Comme ce fait ne peut être modifié, nous devons nous adapter, adapter nos comportements et nos outils pour pouvoir stocker et traiter une telle masse d'informations.

Dans ce numéro...

Stockage et exploitation : des données aux « big data »

Par Colombo Tristan, Chazallet Sébastien

Humeur et Critique Data / Big Data

GNU/Linux Magazine

HS n°

mai 2015

| Colombo Tristan, Chazallet Sébastien

Lorsque l'on travaille avec des données, il ne suffit pas de les acquérir et de les stocker, il faut également être capable de les faire « parler ». Plus la masse d'informations augmente, plus les techniques de stockage et de traitement doivent être efficaces ; mais faut-il pour autant inventer un nouveau nom pour qualifier ces données ?

> Lire l'extrait

Hadoop

Par Chazallet Sébastien

Système Data / Big Data

GNU/Linux Magazine

HS n°

mai 2015

| Chazallet Sébastien

Hadoop est un framework permettant la création d'applications distribuées (potentiellement sur des grappes de plusieurs milliers de serveurs) et pouvant supporter de grosses montées en charge afin de traiter des volumes de données de l'ordre du petaoctet. Il est structuré autour de plusieurs composants que nous présenterons.

> Lire l'extrait

HBase

Par Chazallet Sébastien

Code Data / Big Data

GNU/Linux Magazine

HS n°

mai 2015

| Chazallet Sébastien

HBase est une base de données orientée colonnes conçue pour fonctionner de manière distribuée au-dessus du système de fichiers HDFS.Comme de nombreux produits issus de l'écosystème Hadoop, elle est inspirée de travaux menés par Google, en l'occurrence BigTable.

> Lire l'extrait

Indexez vos données sans limites à l'aide de Infinispan

Par Pelisse Romain

Code Data / Big Data

GNU/Linux Magazine

HS n°

mai 2015

| Pelisse Romain

Que ce soit à des fins statistiques, marketing, ou encore plus simplement pour la recherche scientifique, nos systèmes d'information doivent constamment stocker un nombre impressionnant de données, souvent de plusieurs téraoctets, tout en garantissant non seulement un temps d'accès défiant toute concurrence, mais aussi permettre de retrouver un échantillon ou un sous-ensemble de ces données tout aussi rapidement. Dans cet article, nous allons étudier comment Infinispan [1] permet d'implémenter de puissantes fonctions de recherche, à l'aide de l'une de ses récentes fonctionnalités de requête (« Query » [2]).

> Lire l'extrait

Teiid, unifiez vos données et simplifiez votre architecture

Par Pelisse Romain

Code Data / Big Data

GNU/Linux Magazine

HS n°

mai 2015

| Pelisse Romain

En ces années « Big Data », ce n'est pas seulement la taille ou la quantité de données qui représente un nouveau défi, mais aussi leur nature. En effet, que ce soit pour des raisons techniques de tenue de charge ou par souci de simplicité, les données sont sauvegardées dans de plus en plus de systèmes différents. Si l'on pouvait, au début des années 2000, estimer que nos données applicatives seraient stockées, la plupart du temps, dans une base de données relationnelle, ou éventuellement extraites d'un système historique (mainframe), le paysage a assez radicalement changé.

> Lire l'extrait

Introduction au data mining en Python avec scikit-learn

Par Rossant Cyrille

Code

GNU/Linux Magazine

HS n°

mai 2015

| Rossant Cyrille

Le data mining est un ensemble de techniques mathématiques et algorithmiques pour extraire de l'information d'un jeu de données. Tandis que la statistique classique s'attache à décrire et expliquer les données, le data mining vise à découvrir des motifs et des structures dans les données pour éventuellement générer des prédictions. Nous allons voir dans cet article les bases théoriques du data mining, et plus particulièrement de l'apprentissage automatique, ainsi que leur mise en application avec la librairie Python scikit-learn.

> Lire l'extrait

Analyse statistique de données avec R

Par Arnaud Laurence

Code Data / Big Data

GNU/Linux Magazine

HS n°

mai 2015

| Arnaud Laurence

Cet article vous propose une rapide introduction au langage R. Celui-ci permet d'effectuer des analyses statistiques sur de gros ensembles de données. Après quelques mots sur l'installation de ce langage, nous évoquerons quelques statistiques réalisables sous R.

> Lire l'extrait

Visualisation interactive de données avec VisPy

Par Rossant Cyrille

Code Data / Big Data

GNU/Linux Magazine

HS n°

mai 2015

| Rossant Cyrille

VisPy est une librairie Python de visualisation scientifique spécialisée dans les importants volumes de données et la 3D. VisPy utilise la puissance du processeur graphique (GPU) à l'aide de la librairie OpenGL pour afficher efficacement et de manière interactive des données volumineuses et complexes. Cet article propose une vue d'ensemble de VisPy pour la visualisation interactive de données.

> Lire l'extrait

Acheter ce numéro en version papier

J'achète ce numéro

Accès par numéro hors-série

124

Développement web avec PHP & Symfony

123

Rust par la pratique !

122

Dossier spécial C++20 - Tout ce que vous devez savoir en pratique sur le nouveau standard !

121

Introduction à la Télémétrie avec OpenTelemetry

120

Créez vos interfaces graphiques & IHM en Python

119

Les nouvelles approches du développement web

118

Big data - Du stockage au traitement...

117

Les bases de l'IA - Bien débuter en Intelligence Artificielle

116

Les cryptomonnaies en pratique

115

Hyper automatisation

114

Déployez vos agents sur la Toile... Web scraping & agents de recherche

113

Code Legacy ...ou comment maintenir vos vieux codes encore en production

112

Spécial développeur : la boîte à outils indispensable !

111

Débogage : outils et méthodes pour traquer les erreurs

110

Python 3 pour débuter en programmation

109

Programmez avec un moteur 3D !

108

Codez une fois, développez partout !

107

GIT - Maîtrisez le versionning de code

106

Initiez-vous au Machine Learning en pratique avec TensorFlow et Keras

105

Spécial DevOps - La boîte outils indispensable !

104

Conteneurs : utilisation avancée & microservices

103

Développez des extensions & plugins pour améliorer vos applications

102

Scripts Shell : bonnes pratiques et techniques avancées

101

Big Data & Data Mining : analysez vos données !

100

Deep Learning : de la théorie à la pratique

Comprendre les attaques sur le Wifi

Comprenez enfin tout sur... les conteneurs !

Les bonnes pratiques du développement sécurisé

Vision assistée par ordinateur avec OpenCV

Mémo Python - Saison 2 : 59 nouvelles recettes pour accélérer vos développements !

Machine Learning : le guide pratique pour démarrer en Intelligence Artificielle

Sécurisez votre infrastructure Linux

Le guide indispensable pour installer et configurer votre VPN

Créez, publiez & monétisez votre application avancée Android

Programmation réseau en Python

Maîtrisez la programmation de scripts Shell

Créez votre base de données MySQL MariaDB en 5 étapes

Kernel - Le guide pour plonger au coeur de votre système GNU/Linux

Mémo Python - 75 recettes pour accélérer vos développements

Node.js - Initiez-vous à la programmation serveur & desktop en JavaScript

Surveillance - Tester les techniques pour mieux se défendre !

Débutez en C++

Créez votre première application Android

Le guide pour apprendre à programmer en Java en 5 jours !

Le guide pour apprendre à programmer en C en 5 jours !

PHP efficace

Analyse de données & Big Data

Programmation orientée objet

Securité & Linux

Raspberry Pi

Les systèmes BSD

Python : niveau avancé à expert

Ligne de commandes

Je programme

Langage C

Exploiter au mieux votre projet open source

Serveurs, le guide pour créer et gérer vos services à la carte

MySQL et bases de données

Apache, le guide complet

Python avancé

Programmation : initiation, embarqué et microcontrôleurs

Apprenez à programmer en Go !

Ne quittez plus vos serveurs des yeux !

Créez vos applications Android comme un pro !

20 recettes pour développer vos applications Android

Django, le framework Python pour les perfectionnistes pressés...

ZEND Framework 2

Carnet de Root

Java

Spécial C et C++

Spécial PHP

Initiation à Python

Développement Android

Hacks, électronique & embarqué

Installation, configuration et optimisation de votre serveur web Apache

Incontournable Python

Besoin d'un serveur polyvalent, rapide et sur mesure ? Debian

Voyage au centre de l'embarqué

Focus sur les outils pour mieux exploiter Linux

Retour d'expériences pour sysadmin - 10 solutions concrètes

Introduction, configuration et utilisation avancée de PostgreSQL 8.4

Electronique, embarqué et hacks

Supervision et surveillance

Configurez et optimisez votre firewall

Explorez les richesses du langage Python

Spécialités

Magazines précédents

GNU/Linux-Magazine Hors-série N°77

Programmation orientée objet

GNU/Linux-Magazine Hors-série N°76

Securité & Linux

GNU/Linux-Magazine Hors-série N°75

Raspberry Pi

GNU/Linux-Magazine Hors-série N°74

Les systèmes BSD

GNU/Linux-Magazine Hors-série N°73

Python : niveau avancé à expert

GNU/Linux-Magazine Hors-série N°72

Ligne de commandes

Les derniers articles Premiums

Les derniers articles Premium

Bun.js : l’alternative à Node.js pour un développement plus rapide

Contenu Premium

Par

Blachowiak Thomas

Code

Web

Dans l’univers du développement backend, Node.js domine depuis plus de dix ans. Mais un nouveau concurrent fait de plus en plus parler de lui, il s’agit de Bun.js. Ce runtime se distingue par ses performances améliorées, sa grande simplicité et une expérience développeur repensée. Peut-il rivaliser avec Node.js et changer les standards du développement JavaScript ?

Ajouter à une liste de lecture

PostgreSQL au centre de votre SI avec PostgREST

Contenu Premium

Par

Auverlot Olivier

Data / Big Data

Web

Dans un système d’information, il devient de plus en plus important d’avoir la possibilité d’échanger des données entre applications. Ce passage au stade de l’interopérabilité est généralement confié à des services web autorisant la mise en œuvre d’un couplage faible entre composants. C’est justement ce que permet de faire PostgREST pour les bases de données PostgreSQL.

Ajouter à une liste de lecture

La place de l’Intelligence Artificielle dans les entreprises

Contenu Premium

Par

Blachowiak Thomas

Société

L’intelligence artificielle est en train de redéfinir le paysage professionnel. De l’automatisation des tâches répétitives à la cybersécurité, en passant par l’analyse des données, l’IA s’immisce dans tous les aspects de l’entreprise moderne. Toutefois, cette révolution technologique soulève des questions éthiques et sociétales, notamment sur l’avenir des emplois. Cet article se penche sur l’évolution de l’IA, ses applications variées, et les enjeux qu’elle engendre dans le monde du travail.

Ajouter à une liste de lecture

Petit guide d’outils open source pour le télétravail

Contenu Premium

Par

Samhi Jordan

Système

Ah le Covid ! Si en cette période de nombreux cas resurgissent, ce n’est rien comparé aux vagues que nous avons connues en 2020 et 2021. Ce fléau a contraint une large partie de la population à faire ce que tout le monde connaît sous le nom de télétravail. Nous avons dû changer nos habitudes et avons dû apprendre à utiliser de nombreux outils collaboratifs, de visioconférence, etc., dont tout le monde n’était pas habitué. Dans cet article, nous passons en revue quelques outils open source utiles pour le travail à la maison. En effet, pour les adeptes du costume en haut et du pyjama en bas, la communauté open source s’est démenée pour proposer des alternatives aux outils propriétaires et payants.

Ajouter à une liste de lecture