La malédiction de la dimension

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
94
Mois de parution
janvier 2018
Domaines


Résumé

Il existe une terrible malédiction à laquelle se heurte le data scientist : la malédiction de la dimension. Ce terrible fléau frappe lorsque le nombre de variables d’un ensemble de données devient trop important. Dans ce cas, afin de permettre une analyse précise dans chacune des dimensions, il faut un ensemble de mesures tout à fait gigantesque. De plus, la multiplication des dimensions rend l’analyse très complexe. Difficile pour un humain d’appréhender les relations entre autant de variables.


1. Dans le vif du sujet

Partons bille en tête, et attaquons-nous à un problème résolu depuis longtemps, mais qui a fait histoire, puisqu’on en parle toujours. Il s’agit d’un problème de classification, que l’on doit à Ronald Fisher, et qu’il a utilisé en 1936 pour illustrer une nouvelle méthode de classification linéaire.

Cet exemple est basé sur un ensemble de données qui, pour 3 espèces d’iris différentes, rassemble quatre mesures différentes :

  • la longueur des sépales ;
  • la largeur des sépales ;
  • la longueur des pétales ;
  • la largeur des pétales.

Ce n’est certes pas un ensemble de très grande dimension, mais nous passons la dimension 3 : il est donc difficile de se représenter simplement cet ensemble.

1.1 L’approche brute force

Il reste néanmoins possible de tracer toutes les combinaisons de comparaisons deux à deux des variables de l’ensemble. La dimension de cet ensemble, n = 4, étant réduite, le nombre de...

Cet article est réservé aux abonnés. Il vous reste 96% à découvrir.
à partir de 21,65€ HT/mois/lecteur pour un accès 5 lecteurs à toute la plateforme
J'en profite


Articles qui pourraient vous intéresser...

Découvrez la programmation différentiable

Magazine
Marque
GNU/Linux Magazine
Numéro
246
Mois de parution
mars 2021
Domaines
Résumé

La programmation différentiable est une nouvelle façon de penser la programmation. Le principe consiste à considérer tout un programme comme une fonction qu’on puisse différentier, et donc optimiser. Nous allons construire dans cet article les outils de base pour ce faire, et présenter la librairie JAX, qui facilite la tâche.

Scikit-image, une alternative à OpenCV pour la reconnaissance d'images

Magazine
Marque
GNU/Linux Magazine
Numéro
244
Mois de parution
janvier 2021
Domaines
Résumé

Une fois n'est pas coutume, nous allons découvrir et utiliser une alternative à OpenCV, scikit-image communément appelé skimage. Nous implémenterons la reconnaissance d'images avec la méthode des histogrammes de gradients orientés (HOG : Histogram of Oriented Gradients) associée à une machine à vecteurs de support (SVM : Support Vector Machine). Cette méthode est employée dans bien des applications telles que l'automobile, pour la détection de piétons [1].

Intelligence artificielle : la grande méprise

Magazine
Marque
Linux Pratique
Numéro
118
Mois de parution
mars 2020
Domaines
Résumé

Que ce soit dans les salons professionnels, la presse spécialisée ou même les publicités adressées au grand public, on n’échappe pas à l’intelligence artificielle. Pourtant, derrière ce terme, finalement très fourre-tout, il existe une véritable science. Mais entre l’état de l’art et ce qui existe réellement, il y a une différence qui change la donne.