Il est très simple de faire dire tout et son contraire à des jeux de données. Il est même possible de s'amuser à trouver des corrélations entre des données qui n'ont absolument rien à voir : le nombre de buts marqués par une équipe de football et la consommation d'alcool des supporters, la fréquence de diffusion des titres d'un chanteur X et le taux de suicide chez les moins de 25 ans, etc. Je vous invite dans cet article à un voyage dans le monde merveilleux des « spurious correlations ».
Traduire littéralement l'expression spurious correlation est assez difficile dans la mesure où elle désigne une corrélation fausse, illégitime, fallacieuse pourrait-on dire, mais j'aime y voir une idée de ridicule également - spurious étant très proche de curious -, idée qui ne transparaît pas en français. Une spurious correlation, c'est donc un lien qui a été déterminé entre deux jeux de données qui n'ont rien à voir l'un avec l'autre, entre lesquels il n'existe en fait aucune relation. Prenons l'exemple totalement factice du nombre de diffusions des titres d'un chanteur X à la radio avec les ventes de tomates dans les supermarchés. Nous considérons que nous avons le tableau de données suivant :
Mois |
Nombre de titres de X diffusés à la radio |
|