Hadoop est un écosystème complet permettant d’adresser l’ensemble des problématiques Big Data : stockage non structuré et structuré, traitement et analyse de données, et Machine Learning. Parti de la motivation de rendre accessibles ces environnements, il est open source, modulaire, facile à déployer, administrable, et fournit de multiples accès à travers de nombreux langages et frameworks. Son architecture permet la flexibilité totale sur l’infrastructure, et garantit un coût de possession faible tout en apportant la scalabilité, la haute disponibilité et la sécurisation des données.
Au tournant des années 2000, plusieurs solutions en rupture avec la gestion traditionnelle des données ont connu des développements importants. À partir de 1998, le mouvement NoSQL (Not-only SQL) a proposé des solutions de stockage et de traitement en rupture avec les bases de données relationnelles et le modèle client-serveur associé (une application est « cliente » de la base de données à laquelle elle délègue la gestion des données). En fait, derrière NoSQL se trouvent plusieurs approches très différentes : bases de données orientées documents, entrepôts clés-valeurs, bases de données orientées colonnes… Toutes ne visent pas les mêmes objectifs. Les solutions de bases de données non relationnelles qui ne proposent que le stockage ne sont adaptées qu’à des usages où il n’est pas nécessaire de traiter les données en masse (l’analyse par exemple le nécessite). En ce qui concerne les solutions orientées Big Data, elles cherchent à couvrir...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première