En ces années « Big Data », ce n'est pas seulement la taille ou la quantité de données qui représente un nouveau défi, mais aussi leur nature. En effet, que ce soit pour des raisons techniques de tenue de charge ou par souci de simplicité, les données sont sauvegardées dans de plus en plus de systèmes différents. Si l'on pouvait, au début des années 2000, estimer que nos données applicatives seraient stockées, la plupart du temps, dans une base de données relationnelle, ou éventuellement extraites d'un système historique (mainframe), le paysage a assez radicalement changé.
Non seulement les bases de données NoSQL se sont multipliées, mais le rêve de la « portabilité SQL » est loin d'avoir tenu toutes ses promesses; ce qui laisse apparaître, dans beaucoup de systèmes d'informations, un ensemble hétéroclite de systèmes, tous nés fortement non égaux en termes d'interopérabilité, de fonctionnalités et de capacité transactionnelle. Du NoSQL comme MongoDB à la grille de données avec InfiniSpan, ou encore Cassandra, en passant par des bases orientées document ou simplement différents systèmes de gestion de base de données tels que PostgresQL et MariaDB, l'extension du périmètre de la lutte est conséquente.
Désormais, localiser où est la donnée, pour peu qu'elle ne vive que dans un unique système, est devenu une tâche ardue. De même, disposer d'une vision globale de ces dernières, et obtenir, par exemple, un rapport donnant l'âge moyen du client « Web », inscrit il y a moins de 3 mois, qui a acheté le dernier Madonna -...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première