Il existe une terrible malédiction à laquelle se heurte le data scientist : la malédiction de la dimension. Ce terrible fléau frappe lorsque le nombre de variables d’un ensemble de données devient trop important. Dans ce cas, afin de permettre une analyse précise dans chacune des dimensions, il faut un ensemble de mesures tout à fait gigantesque. De plus, la multiplication des dimensions rend l’analyse très complexe. Difficile pour un humain d’appréhender les relations entre autant de variables.
1. Dans le vif du sujet
Partons bille en tête, et attaquons-nous à un problème résolu depuis longtemps, mais qui a fait histoire, puisqu’on en parle toujours. Il s’agit d’un problème de classification, que l’on doit à Ronald Fisher, et qu’il a utilisé en 1936 pour illustrer une nouvelle méthode de classification linéaire.
Cet exemple est basé sur un ensemble de données qui, pour 3 espèces d’iris différentes, rassemble quatre mesures différentes :
- la longueur des sépales ;
- la largeur des sépales ;
- la longueur des pétales ;
- la largeur des pétales.
Ce n’est certes pas un ensemble de très grande dimension, mais nous passons la dimension 3 : il est donc difficile de se représenter simplement cet ensemble.
1.1 L’approche brute force
Il reste néanmoins possible de tracer toutes les combinaisons de comparaisons deux à deux des variables de l’ensemble. La dimension de cet ensemble, n = 4, étant réduite, le nombre de...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première