Hadoop

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
78
Mois de parution
mai 2015
Domaines


Résumé
Hadoop est un framework permettant la création d'applications distribuées (potentiellement sur des grappes de plusieurs milliers de serveurs) et pouvant supporter de grosses montées en charge afin de traiter des volumes de données de l'ordre du petaoctet. Il est structuré autour de plusieurs composants que nous présenterons.

L'origine du projet remonte à 2004 lorsque Google publie un article présentant le MapReduce et son système de fichiers en cluster, le GoogleFS. Le concept est repris par Doug Cutting et Yahoo pour réaliser un outil libre et gratuit, qui sera utilisé par Yahoo pour son moteur de recherche avant que ce dernier ne décide de basculer vers Bing. Aujourd'hui, Hadoop est utilisé par tous les grands acteurs devant gérer de grandes quantités de données (Facebook en étant l'exemple le plus important avec 40 Ti de données compressées ajoutées chaque jour, mais on peut citer Twitter, LinkedIn, eBay, Oracle, Microsoft ou encore Amazon).

1. Présentation succincte de Hadoop

Hadoop vous permet de traiter des données peu ou pas du tout structurées. Ce n'est pas un remplacement à des solutions actuelles fonctionnant au-dessus de serveurs de bases de données relationnelles.

C'est un outil dédié exclusivement au big data. Utiliser Hadoop pour traiter moins de 20 Ti de données n'est...

Cet article est réservé aux abonnés. Il vous reste 96% à découvrir.
à partir de 21,65€ HT/mois/lecteur pour un accès 5 lecteurs à toute la plateforme
J'en profite


Articles qui pourraient vous intéresser...

Déploiements reproductibles dans le temps avec GNU Guix

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
113
Mois de parution
mars 2021
Domaines
Résumé

Pour la recherche scientifique comme pour d'autres domaines, on a souvent besoin de reproduire un environnement logiciel à l'identique non seulement sur différentes machines, mais aussi à différents instants dans le temps. Docker et les machines virtuelles, qui sont souvent la solution choisie pour répondre à ce besoin, ont des limitations qu’il est facile de ne pas voir. Cet article illustre l’utilisation de GNU Guix pour des déploiements reproductibles, au bit près, dans l’espace et dans le temps.

Générer et manipuler des images ISO

Magazine
Marque
Linux Pratique
Numéro
124
Mois de parution
mars 2021
Domaines
Résumé

Quand bien même leur usage s’est quelque peu atténué au profit d’autres supports de stockage de masse depuis plusieurs années, les CD-ROM et autres DVD-ROM ont toujours une utilité en 2020 : stockage de données, création de disques bootables (pour distributions GNU/Linux entre autres), disques multimédias... S’il est vrai que sa durée de vie a été surestimée à une époque (peut-être pour favoriser son utilisation), la bonne vieille galette n’est pas encore morte, et il lui reste encore de beaux jours à vivre.

Gérez vos projets Git en mode graphique avec GitKraken

Magazine
Marque
Linux Pratique
Numéro
124
Mois de parution
mars 2021
Domaines
Résumé

Je vous ai précédemment présenté GitLab [0], une forge logicielle utilisant Git vous permettant une gestion globale de vos projets en équipe. Comme nous l’avions vu, une connaissance minimale de Git était nécessaire pour l’utilisation de GitLab. Certains de vos collaborateurs ne sont peut-être pas à l’aise avec la ligne de commandes, ne veulent tout simplement pas l’utiliser ou encore ne veulent pas apprendre la syntaxe des commandes Git. GitKraken [1] est fait pour eux. Il leur permettra de réaliser toutes les opérations Git à l’aide d’une interface graphique.

Le DevOps en pratique

Magazine
Marque
Linux Pratique
Numéro
124
Mois de parution
mars 2021
Domaines
Résumé

Aujourd’hui, le terme DevOps est au cœur de la transformation digitale. En effet, lorsqu’on évoque l’agilité dans le cycle de vie de développement logiciel, on est amené à pratiquer des méthodologies permettant d’accélérer d’une part le processus de développement et de fiabiliser la production logicielle d’un autre côté. Parmi ces méthodologies (Scrum, Kanban…), le DevOps est certainement celle qui a été adopté par la plupart des entreprises ayant comme activité principale ou annexe, la digitalisation de leur système d’information pour faire face au défi que représente l’essor des technologies numériques. Dans cet article, nous ferons un premier tour d’horizon de la partie outillage du DevOps. Il existe une panoplie d’outils et il est impossible de les évoquer tous dans un seul article, car chaque outil nécessiterait un ouvrage à part entière.

Créez vos clusters avec Elasticsearch

Magazine
Marque
Linux Pratique
Numéro
124
Mois de parution
mars 2021
Domaines
Résumé

Vous êtes-vous déjà demandé comment Facebook et Google gèrent leurs immenses masses de données tout en fournissant des services rapides ? Quelle serait votre solution pour gérer une base de données avec un trafic de données abondant ? Voici quelques éléments de réponse à ces questions.