Avec l’augmentation des volumes de données générées, collectées et stockées, leur traitement devient un écueil technique majeur. Que ce soit pour de l’analyse descriptive ou des traitements de Machine Learning, les solutions habituelles ne suffisent plus. Une solution open source de référence répondant à cette problématique est Apache Spark : son utilisation très simple permet facilement de passer à l’échelle du Big Data.
La problématique de passage à l’échelle (« scalabilité » ou « scaléabilité ») pour des calculs lourds ou de l’analyse de données est un sujet majeur de l’informatique, avec des implications théoriques et des problèmes de mise en œuvre tout aussi épineux. Des réponses sont proposées depuis des décennies : matériel dédié centralisé (supercalculateurs, par exemple), logiciel d’infrastructure spécialisé (depuis les RPC jusqu’à MPI en passant par OpenMP et autres), langages naturellement distribués (Julia), etc. Entre le coût extrême pour le matériel jusqu’à la complexité d’écriture de code spécifique, les inconvénients sont nombreux. Depuis à peu près 20 ans, le calcul et le traitement de données se sont généralisés sur des fermes de serveurs standard, qu’on appelle des « clusters ». L’évolution des architectures de référence pour le calcul à haute performance (HPC pour High Performance Computing) sur cette période vers...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première