Il est très simple de faire dire tout et son contraire à des jeux de données. Il est même possible de s'amuser à trouver des corrélations entre des données qui n'ont absolument rien à voir : le nombre de buts marqués par une équipe de football et la consommation d'alcool des supporters, la fréquence de diffusion des titres d'un chanteur X et le taux de suicide chez les moins de 25 ans, etc. Je vous invite dans cet article à un voyage dans le monde merveilleux des « spurious correlations ».
Traduire littéralement l'expression spurious correlation est assez difficile dans la mesure où elle désigne une corrélation fausse, illégitime, fallacieuse pourrait-on dire, mais j'aime y voir une idée de ridicule également - spurious étant très proche de curious -, idée qui ne transparaît pas en français. Une spurious correlation, c'est donc un lien qui a été déterminé entre deux jeux de données qui n'ont rien à voir l'un avec l'autre, entre lesquels il n'existe en fait aucune relation. Prenons l'exemple totalement factice du nombre de diffusions des titres d'un chanteur X à la radio avec les ventes de tomates dans les supermarchés. Nous considérons que nous avons le tableau de données suivant :
Mois |
Nombre de titres de X diffusés à la radio |
Nombre de tomates vendues dans les supermarchés (en tonnes) |
Novembre 2017 |
345 |
19 |
Décembre... |
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première