Les « spurious correlations » ou comment faire dire absolument n'importe quoi à ses données

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
101
Mois de parution
mars 2019
Domaines


Résumé

Il est très simple de faire dire tout et son contraire à des jeux de données. Il est même possible de s'amuser à trouver des corrélations entre des données qui n'ont absolument rien à voir : le nombre de buts marqués par une équipe de football et la consommation d'alcool des supporters, la fréquence de diffusion des titres d'un chanteur X et le taux de suicide chez les moins de 25 ans, etc. Je vous invite dans cet article à un voyage dans le monde merveilleux des « spurious correlations ».


Traduire littéralement l'expression spurious correlation est assez difficile dans la mesure où elle désigne une corrélation fausse, illégitime, fallacieuse pourrait-on dire, mais j'aime y voir une idée de ridicule également - spurious étant très proche de curious -, idée qui ne transparaît pas en français. Une spurious correlation, c'est donc un lien qui a été déterminé entre deux jeux de données qui n'ont rien à voir l'un avec l'autre, entre lesquels il n'existe en fait aucune relation. Prenons l'exemple totalement factice du nombre de diffusions des titres d'un chanteur X à la radio avec les ventes de tomates dans les supermarchés. Nous considérons que nous avons le tableau de données suivant :

Mois

Nombre de titres de X diffusés à la radio

Nombre de tomates vendues dans les supermarchés (en tonnes)

Novembre 2017

345

19

Décembre...

Cet article est réservé aux abonnés. Il vous reste 96% à découvrir.
à partir de 21,65€ HT/mois/lecteur pour un accès 5 lecteurs à toute la plateforme
J'en profite


Articles qui pourraient vous intéresser...

Système extensible et hautement disponible avec Erlang/OTP

Magazine
Marque
GNU/Linux Magazine
Numéro
241
Mois de parution
octobre 2020
Domaines
Résumé

Erlang est un langage de programmation fonctionnel et distribué, créé à la fin des années 80 pour régler de nombreux problèmes issus du monde des télécoms, et plus généralement de l’industrie. Outre le fait qu’il soit l’une des seules implémentations réussies du modèle acteur disponible sur le marché, son autre grande particularité est d’être livré avec une suite d’outils, de modèles et de principes conçus pour offrir un environnement cohérent. Ce framework, nommé OTP, fait partie intégrante de la vie des développeurs utilisant Erlang au jour le jour...

Simulation d’un ordinateur mécanique en scriptant sous FreeCAD

Magazine
Marque
Hackable
Numéro
35
Mois de parution
octobre 2020
Domaines
Résumé

L’évolution du traitement du signal est une histoire fascinante largement déroulée par David Mindell dans ses divers ouvrages [1] et citations [2]. Partant de l’ordinateur mécanique avec ses rouages, poulies, bielles et crémaillères, le passage à l’électrique au début du 20ème siècle, puis à l’électronique intégrée avec l’avènement du transistor et des circuits intégrés (VLSI) nous ont fait oublier les stades initiaux qui ont amené à notre statut actuel d’ordinateurs infiniment puissants, précis et compacts. Alors que cette histoire semble s’accompagner du passage de l’analogique au numérique – de la manipulation de grandeurs continues en grandeurs discrètes avec son gain en stabilité et reproductibilité – il n’en est en fait rien : un boulier fournit déjà les bases du calcul discrétisé mécanique, tandis que [3] introduit les concepts du calcul mécanique avec les traitements numériques avant de passer aux traitements analogiques.