[Total : 1    Moyenne : 5/5]
Corrélation n’est pas causalité“. C’est une phrase maintes fois répétée dans tous les ouvrages.

Corrélation n’est pas causalité !

 

C’est une phrase maintes fois répétée dans tous les ouvrages. Il ne faut surtout pas faire une référence absolue les résultats d’une étude statistique. Il importe de délimiter clairement son champ d’action et identifier les cas où ses indications sont sujettes à caution1.

Corrélation fortuite

La corrélation peut parfois être totalement fortuite2. Par exemple, on rapporte que sur les données annuelles de 1897 à 1985, des études ont montré une corrélation de 0.91 entre le revenu national américain et le nombre de tâches solaires (les zones sombres du soleil qui sont les moins chaudes). Toutefois, personne ne peut décemment soutenir qu’il y a une relation quelconque entre ces 2 données.

Facteur confondant

La corrélation peut aussi cacher l’influence d’un autre facteur. On montre par exemple qu’il existe une relation négative entre la taille des personnes et la longueur de leur chevelure. On pourra toujours avancer des arguments plus ou moins psychologiques, mais avant de s’avancer, on ferait mieux de revenir sur les conditions du recueil des données et vérifier qu’il n’y a pas d’informations cachées. Or, en moyenne, les hommes sont plus grands que les femmes, et inversement, les femmes ont une chevelure plus longue que les hommes. Le sexe de la personne joue alors le rôle de facteur confondant.

L’apparente liaison est un artefact lié à l’existence d’un facteur non maîtrisé.

Dans le cas où le facteur confondant est qualitatif, on détecte facilement le problème en construisant un nuage de points en distinguant les sous-groupes.

Lorsque le facteur est quantitatif, c’est un peu plus compliqué. Par exemple : pour la vente de lunettes de soleil et de crèmes glacées, il n’y a pas de lien direct. C’est l’ensoleillement ou la température qui les font varier de manière concomitante. Ce cas s’étudie via des corrélations partielles.

L’Illusion des séries

Il s’agit de notre tendance à percevoir à tort des coïncidences dans des données au hasard. Cela est dû au fait que notre esprit s’attend à un certain résultat et élabore à priori un résultat. Si nous ne menons pas jusqu’au bout l’étude statistique, il est possible que celle-ci nous conduise à une illusion.

Pour illustrer ce phénomène, les chercheurs Gilovich, Vallone et Tversky  ont montré que l’idée selon laquelle un joueur de basket-ball est en veine s’il réussi une série de tirs est fausse. Des analyses faites au sein de l’équipe de Philadelphie n’ont pas montré que les joueurs réussissaient des séries de tirs réussis plus que le hasard ne le laisse présager. Quand un joueur réussit son premier lancer, il réussit le second 75% du temps. Mais lorsqu’il rate le premier lancer, il réussit le second également 75% du temps. Autrement dit, on a autant de chance d’être “en veine” que de ne pas l’être. Autrement dit, si nous avions mené notre étude statistique que sur les tirs réussis, nous aurions “justifié” la cause et nous serions face à une illusion. En recherchant la probabilité des tirs manqués, on casse cette illusion.

La distorsion des données

Nous retraitons parfois les données qui vont dans le sens qui “nous arrange“. C’est quelque chose que nous faisons de manière complètement volontaire (chacun ayant ses raisons) ou simplement sans avoir pris conscience des conséquences de cette retouche.

C’est le cas par exemple où pour accentuer l’effet que nous recherchons, nous supprimons un ou plusieurs points de mesure prétextant que ceux-ci sont aberrants. Sans pour autant l’avoir démontré clairement.

En effet, pour chacune des mesures “non normales” donc à priori aberrantes, il faut investiguer pour savoir s’il s’agit d’une réalité (erreur dans la prise de mesure…) ou s’il s’agit d’un point à prendre en compte car il n’y de fait aucune raison valable de ne pas le prendre en compte.

Le Sophisme du Tireur d’Elite Texan

Le sophisme du tireur d’élite Texans est l’illustration du concept de cette distorsion des données. L’origine se trouve dans une blague américaine :

Une personne tire une série de balles sur le mur d’une grange. Une fois cela fait, il trace une cible autour de chacune des balles et s’écrit “je suis un tireur d’élite“.

Petit aparté sur la notion de statistiques

Nous en avons tous l’intuition, les statistiques sont des outils puissant, mais nous avons bien souvent cette sensation de nous faire “berner” par des chiffres statistiques particulièrement dans le cas des échanges politiques. Un excellent article de la Harvard Business Review (téléchargeable ci-dessus) met en avant ce phénomène et toutes les méfiances que nous devons prendre aux égards des chiffres et études statistiques.

Source

1 – Y. Dodge, V. Rousson (2004) – Analyse de régression appliquée

2 – J. Johnston, J. DiNardo (1999) – Méthodes économétriques

R. Cornelius (1960) – Le jour le plus long

Share This