Tout est corrélé à tout le reste (2014–23)

(gwern.net)

2 points par GN⁺ 2025-08-24 | Aucun commentaire pour le moment. | Partager sur WhatsApp

En sciences sociales et en sciences du vivant, il existe un certain niveau de corrélation entre presque toutes les variables
Ce phénomène n’est pas un simple hasard ni une erreur statistique, mais un fait réel issu de facteurs génétiques et environnementaux étroitement imbriqués
Plus la taille de l’échantillon augmente, plus des corrélations significatives apparaissent pour la plupart des paires de variables, et les chercheurs en viennent à se concentrer davantage sur le motif global des corrélations que sur chaque corrélation prise isolément
Le « crud factor » signifie qu’une faible corrélation existe entre presque toutes les paires de variables, si bien qu’avec une théorie arbitraire et un choix arbitraire de variables, on obtient avec une forte probabilité un résultat significatif
Dans cette situation, la signification du seuil de significativité traditionnel (0,05) s’affaiblit, ce qui impose de la prudence dans l’interprétation statistique en sciences sociales

Vue d’ensemble et contexte

En psychologie et en sociologie, l’idée selon laquelle « tout est corrélé à tout dans une certaine mesure » est largement admise
Un trait donné est déterminé par plusieurs facteurs génétiques et environnementaux, qui présentent eux-mêmes des corrélations entre eux
En pratique, presque toutes les variables mesurables présentent donc un certain degré d’interdépendance

Le « crud factor » désigne le phénomène selon lequel, dans les recherches en sciences sociales (et dans une partie des sciences du vivant), une faible corrélation existe toujours entre des paires de variables arbitraires
Dans un vaste jeu de données recueilli en 1966 auprès de 57 000 lycéens du Minnesota, l’analyse de 105 tableaux croisés (crosstabulations) portant sur des variables variées — famille, éducation, loisirs, projet professionnel, religion, etc. — a montré que tous les résultats étaient statistiquement significatifs
- Pour 96 % d’entre eux, la probabilité que cela soit dû au hasard était écartée à un niveau extrêmement faible de p<10⁻⁶
En étendant le nombre de variables à 45, 92 % des 990 combinaisons au total étaient statistiquement significatives
- La médiane (median) du nombre de relations significatives entre une variable et toutes les autres était de 41 sur 44

Des relations entre les scores au MCAT et le nombre de frères et sœurs, le rang de naissance, le sexe, le projet professionnel ou la préférence religieuse ont elles aussi montré une forte significativité statistique
- Ex. : les étudiantes obtiennent de meilleurs scores que les étudiants ; plus le nombre de frères et sœurs augmente, plus les scores tendent à baisser ; les aînés ou enfants uniques seraient plus intelligents que les benjamins ; des différences nettes apparaissent selon les groupes religieux, etc.
Pour cinq grandes dénominations protestantes également, on a observé une forte significativité dans les relations avec diverses variables
- Ex. : la probabilité qu’un enfant unique soit presbytérien est presque deux fois plus élevée que pour un baptiste ; des différences existent selon la dénomination dans l’appréciation de l’école et les aspirations professionnelles, entre autres corrélations

Parmi les 550 items du MMPI (test de personnalité), 507 (92 %) présentent des différences significatives selon le sexe
- Certains items permettent d’expliquer clairement des différences de tendance marquées, tandis que d’autres relèvent de causes multiples ou restent sans explication claire
Comme ces résultats apparaissent dans de très grandes études avec des échantillons massifs, il s’agit d’un phénomène réel et non d’une erreur statistique (erreur de type I)

Même en associant au hasard une théorie quelconque et une paire de variables, si la corrélation moyenne (crud factor) est de l’ordre de 0,30, il devient concrètement possible de trouver une différence significative environ une fois sur trois
- Ce phénomène survient bien plus souvent que ne le suggère le seuil de significativité de 0,05 généralement considéré comme important en sciences sociales
Comme des corrélations apparaissent facilement même entre des paires de variables non prévues par la théorie du chercheur, la seule significativité statistique suffit difficilement à étayer une causalité réelle
La combinaison de causes complexes (gènes/environnement) et de la richesse des données observées produit ce large éventail de corrélations

Lors de l’interprétation des données en sciences sociales et de la validation des théories, il faut toujours garder à l’esprit le « crud factor », c’est-à-dire des « corrélations banales mais réellement présentes »
Plutôt que d’accorder une confiance aveugle aux statistiques de significativité (par ex. p<0.05), il faut davantage se concentrer sur la causalité réelle entre les variables et sur l’interprétation des motifs
Comme le dit l’aphorisme de Thorndike, « toutes les bonnes choses ont tendance à aller ensemble » : dans le monde réel, beaucoup trop de choses sont entremêlées