3 points par GN⁺ 2024-03-13 | 1 commentaires | Partager sur WhatsApp

Le paradoxe de Simpson

  • Le paradoxe de Simpson est un phénomène en probabilités et en statistiques où une tendance apparaît dans les données de plusieurs groupes, mais disparaît ou s’inverse lorsque les groupes sont regroupés.
  • Ce résultat est fréquemment observé dans les statistiques en sciences sociales et en médecine, et il devient particulièrement problématique lorsque l’on attribue à tort une interprétation causale à des données de fréquence.
  • En modélisation statistique, on peut résoudre ce paradoxe en traitant correctement les variables de confusion et les relations causales.

Exemples

Biais de genre à UC Berkeley

  • Dans les statistiques d’admission en master et doctorat à UC Berkeley à l’automne 1973, il apparaissait que les hommes avaient une probabilité d’admission plus élevée que les femmes.
  • Cependant, lorsqu’on prend en compte les informations d’admission par département, on observe que les femmes ont tendance à postuler dans des départements plus compétitifs, tandis que les hommes postulent relativement plus souvent dans des départements moins compétitifs.
  • Une fois les données globales corrigées, on observe un « biais statistiquement significatif légèrement favorable aux femmes ».

Traitement des calculs rénaux

  • Exemple issu d’une véritable étude médicale comparant le taux de réussite de deux traitements contre les calculs rénaux.
  • Pour les petits comme pour les gros calculs, le traitement A est plus efficace, mais lorsqu’on considère les deux tailles ensemble, le traitement B semble plus efficace.
  • Ce paradoxe est causé par une variable cachée, la taille des calculs, et survient lorsque cette variable n’est pas prise en compte.

Moyenne au bâton

  • Le paradoxe de Simpson peut apparaître lorsqu’on compare la moyenne au bâton de joueurs de baseball professionnel.
  • Un joueur peut avoir une moyenne au bâton plus élevée qu’un autre sur plusieurs années, tout en affichant une moyenne plus faible lorsque l’on agrège ces années.

Critiques

  • Certains critiquent l’idée que le paradoxe de Simpson soit réellement un paradoxe, estimant qu’il s’agit en fait d’un problème qui survient lorsqu’on ne prend pas correctement en compte les relations causales entre les variables.
  • Si l’on classe les données différemment ou que l’on prend en compte d’autres variables de confusion, le phénomène peut disparaître ou s’inverser.
  • Il est également avancé que l’attention portée au paradoxe de Simpson peut détourner l’attention de problèmes plus importants auxquels il faut être attentif dans l’analyse statistique.

Avis de GN⁺

  • Le paradoxe de Simpson offre un enseignement important en analyse de données et en inférence statistique. Il souligne qu’au moment d’interpréter des données, il est essentiel de comprendre non seulement la comparaison brute des chiffres, mais aussi les relations entre les variables et le contexte de la situation.
  • Ce paradoxe rappelle aux data scientists et aux chercheurs qu’ils doivent identifier les variables de confusion et utiliser des méthodes statistiques appropriées pour clarifier les relations causales lors de l’analyse des données.
  • Le paradoxe de Simpson peut servir d’exemple pour souligner l’importance des techniques d’analyse de données afin d’éviter les erreurs d’interprétation et d’aboutir à des conclusions plus précises.
  • Dans l’enseignement de la data science, le paradoxe de Simpson peut être utilisé comme un outil pédagogique important, en aidant à sensibiliser aux erreurs potentielles pouvant survenir lors de l’interprétation de jeux de données complexes.
  • Parmi les méthodologies statistiques utiles pour comprendre et résoudre ce paradoxe figurent l’analyse multivariée, la régression logistique et les modèles d’inférence causale, des méthodes essentielles pour permettre aux analystes de données de résoudre des problèmes concrets.

1 commentaires

 
GN⁺ 2024-03-13
Commentaires sur Hacker News
  • Un analyste de données a raconté que, lorsqu’il travaillait chez The Hut Group, une entreprise d’e-commerce, les coûts marketing avaient été signalés comme étant en baisse alors qu’en réalité ils avaient presque doublé.

    • L’équipe marketing indiquait que les coûts marketing diminuaient dans chaque catégorie de produits, mais comme la part des ventes de la catégorie des compléments alimentaires a fortement augmenté, le ratio global des coûts marketing a lui aussi augmenté.
    • Cela a été l’occasion d’expliquer le paradoxe de Yule-Simpson, un exemple qui montre l’écart entre les performances individuelles et le résultat global.
  • Le mathématicien Jordan Ellenberg soutient que le paradoxe de Simpson n’est pas réellement une contradiction, mais qu’il concerne deux façons différentes de regarder les données.

    • C’est une méthode d’analyse importante en science des données, qui consiste à considérer simultanément les parties et le tout.
  • Un enseignant en statistique a utilisé les données des prix de l’immobilier aux États-Unis pour expliquer le paradoxe de Simpson.

    • Le prix moyen des logements sans climatisation centrale apparaissait plus élevé que celui des logements qui en étaient équipés, mais une fois ventilé par État, la relation s’inversait.
    • Cela s’explique par le fait que les logements très chers de Californie tiraient le prix moyen vers le haut.
  • Il faut aussi connaître le paradoxe de Berkson.

    • Il montre que des erreurs peuvent survenir dans des ensembles de données constitués de manière biaisée.
  • La courte animation sur la page Wikipédia du paradoxe de Simpson est un bon exemple pour en faciliter la compréhension.

  • Il a récemment été découvert que le paradoxe de Simpson apporte aussi une leçon sur l’inférence causale.

    • Lorsqu’on applique le bon paradigme, le paradoxe disparaît.
  • Le paradoxe de Lord est étroitement lié au paradoxe de Simpson et il est facile à comprendre visuellement.

    • En prenant comme exemple la relation entre la dose d’un médicament et la durée du sommeil, les droites de régression des données individuelles et des données globales montrent des résultats différents.
  • Il y avait eu au départ une confusion, en pensant que le paradoxe de Simpson ressemblait en fait à une scène d’un épisode des "Simpson", mais il se pourrait que cette ressemblance ait été intentionnelle de la part des scénaristes de la série à la fin des années 1990.

  • En lisant un cas où le processus d’admission à UC Berkeley semblait présenter un biais de genre, il a été constaté que les femmes et les hommes avaient tendance à candidater respectivement à des filières très compétitives et à d’autres qui le sont moins.

    • Cela contraste avec la situation en Australie, où l’on s’attend généralement à ce que les filières artistiques soient plus faciles d’accès que les filières STEM.
  • La visualisation de Wikipédia est très efficace et permet de comprendre le paradoxe sans explication supplémentaire.