Les « spurious correlations » ou comment faire dire absolument n'importe quoi à ses données

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
101
Mois de parution
mars 2019
Spécialité(s)


Résumé

Il est très simple de faire dire tout et son contraire à des jeux de données. Il est même possible de s'amuser à trouver des corrélations entre des données qui n'ont absolument rien à voir : le nombre de buts marqués par une équipe de football et la consommation d'alcool des supporters, la fréquence de diffusion des titres d'un chanteur X et le taux de suicide chez les moins de 25 ans, etc. Je vous invite dans cet article à un voyage dans le monde merveilleux des « spurious correlations ».


Traduire littéralement l'expression spurious correlation est assez difficile dans la mesure où elle désigne une corrélation fausse, illégitime, fallacieuse pourrait-on dire, mais j'aime y voir une idée de ridicule également - spurious étant très proche de curious -, idée qui ne transparaît pas en français. Une spurious correlation, c'est donc un lien qui a été déterminé entre deux jeux de données qui n'ont rien à voir l'un avec l'autre, entre lesquels il n'existe en fait aucune relation. Prenons l'exemple totalement factice du nombre de diffusions des titres d'un chanteur X à la radio avec les ventes de tomates dans les supermarchés. Nous considérons que nous avons le tableau de données suivant :

Mois

Nombre de titres de X diffusés à la radio

Nombre de tomates vendues dans les supermarchés (en tonnes)

Novembre 2017

345

19

Décembre...

Cet article est réservé aux abonnés. Il vous reste 96% à découvrir.
S'abonner à Connect
  • Accédez à tous les contenus de Connect en illimité
  • Découvrez des listes de lecture et des contenus Premium
  • Consultez les nouveaux articles en avant-première
Je m'abonne


Article rédigé par

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous