Paradoxe de Simpson et interprétation des données

Le défi de trouver la bonne vue à travers les données

Edward Hugh Simpson, statisticien et ancien cryptanalyste à Bletchley Park, a décrit le phénomène statistique qui prend son nom dans un article technique en 1951. Le paradoxe de Simpson met en évidence l’une de mes choses préférées sur les données: le besoin d’une bonne intuition concernant le monde réel et comment la plupart des données sont une représentation de dimensions finies d’un domaine beaucoup plus vaste et beaucoup plus complexe. L’art de la science des données est de voir au—delà des données – en utilisant et en développant des méthodes et des outils pour avoir une idée de ce à quoi ressemble cette réalité cachée. Le paradoxe de Simpson montre l’importance du scepticisme et de l’interprétation des données par rapport au monde réel, ainsi que les dangers de simplifier à l’excès une vérité plus complexe en essayant de voir toute l’histoire d’un point de vue de données unique.

Le paradoxe est relativement simple à énoncer et est souvent une cause de confusion et de désinformation pour des publics non formés statistiquement:

Paradoxe de Simpson:
Une tendance ou un résultat présent lorsque des données sont placées dans des groupes qui s’inverse ou disparaît lorsque les données sont combinées.

L’un des exemples les plus célèbres du paradoxe de Simpson est le biais de genre présumé d’UC Berkley. Au début de l’année universitaire en 1973, l’école supérieure de l’UC Berkeley avait admis environ 44% de ses candidats masculins et 35% de leurs candidates féminines. L’histoire raconte généralement que l’école a été poursuivie pour discrimination fondée sur le sexe, bien que ce ne soit pas réellement vrai. L’école craignait cependant un procès, et ils ont donc demandé au statisticien Peter Bickel de regarder les données. Ce qu’il a constaté était surprenant: il y avait un biais sexiste statistiquement significatif en faveur des femmes dans 4 des 6 départements, et aucun biais sexiste significatif dans les 2 autres. L’équipe de Mme Bickel a découvert que les femmes avaient tendance à présenter une demande dans les ministères qui admettaient un plus petit pourcentage de candidats dans l’ensemble, et que cette variable cachée influait sur les valeurs marginales du pourcentage de candidats acceptés de manière à inverser la tendance qui existait dans l’ensemble des données. Essentiellement, la conclusion a basculé lorsque l’équipe de Bickel a changé son point de vue sur les données pour tenir compte de la division de l’école en départements!

Un exemple visuel : la tendance générale s’inverse lorsque les données sont regroupées par catégorie représentée par des couleurs.

Le paradoxe de Simpson peut rendre la prise de décision difficile. Nous pouvons examiner et regrouper et rééchantillonner nos données autant que nous le pouvons, mais si plusieurs conclusions différentes peuvent être tirées de toutes les différentes catégorisations, le choix d’un regroupement pour tirer nos conclusions afin de mieux comprendre et de développer des stratégies est un problème nuancé et difficile. Nous devons savoir ce que nous recherchons et choisir le meilleur point de vue de données donnant une représentation équitable de la vérité. Pensons à un exemple simple en affaires.

Supposons que nous soyons dans l’industrie des boissons gazeuses et que nous essayons de choisir entre deux nouvelles saveurs que nous avons produites. Nous pourrions échantillonner l’opinion publique sur les deux saveurs — disons que nous choisissons de le faire en installant deux stands d’échantillonnage pour chaque saveur dans une zone animée et en demandant à 1000 personnes à chaque stand si elles apprécient la nouvelle saveur.

Nous pouvons voir que 80% des gens ont apprécié la « Fraise pécheresse » alors que seulement 75% des gens ont apprécié la « Pêche passionnée ». La « fraise pécheresse » est donc plus susceptible d’être la saveur préférée.

Supposons maintenant que notre équipe de marketing ait recueilli d’autres informations lors de l’enquête, telles que le sexe de la personne qui échantillonne la boisson. Que se passe-t-il si nous divisons nos données par sexe?

Cela suggère que 84,4% des hommes et 40% des femmes aimaient la « Fraise pécheresse » alors que 85,7% des hommes et 50% des femmes aimaient la « Pêche passionnée ». Si nous nous arrêtons pour réfléchir, cela peut sembler un peu étrange: selon nos données d’échantillon, les gens préfèrent généralement la « Fraise pécheresse », mais les hommes et les femmes préfèrent séparément la « Pêche passionnée ». C’est un exemple du paradoxe de Simpson!
Notre intuition nous dit que la saveur qui est préférée à la fois lorsqu’une personne est un homme ou une femme devrait également être préférée lorsque son sexe est inconnu, et il est assez étrange de découvrir que ce n’est pas vrai — c’est le cœur du paradoxe.

Variables cachées

Le paradoxe de Simpson survient lorsqu’il existe des variables cachées qui divisent les données en plusieurs distributions distinctes. Une telle variable cachée est à juste titre appelée variable cachée, et elle peut souvent être difficile à identifier. Heureusement, ce n’est pas le cas dans notre exemple de boissons gazeuses, et notre équipe marketing devrait rapidement être en mesure de voir que le sexe de la personne qui goûte les nouvelles saveurs affecte son opinion.

Une façon d’expliquer le paradoxe est de considérer la variable tapie (sexe) et un peu de théorie des probabilités:

P (Fraise aimée) = P (Fraise aimée| Homme) P (Homme) + P (Fraise Aimée| Femme) P (Femme)

800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)

P (Pêche aimée) = P (Pêche Aimée | Homme) P (Homme) + P (Pêche Aimée | Femme) P (Femme)

750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)

Nous pouvons considérer les probabilités marginales du sexe (P (Homme) et P (Femme)) comme des poids qui, dans le cas de la « Fraise pécheresse », entraînent un décalage significatif de la probabilité totale vers l’opinion masculine. Bien qu’il existe toujours un biais masculin caché dans notre échantillon de « Pêche passionnée », il n’est pas aussi fort et une plus grande proportion de l’opinion féminine est donc prise en compte. Il en résulte une probabilité marginale plus faible pour la population générale de préférer cette saveur, même si chaque sexe est plus susceptible de la préférer lorsqu’il est séparé dans l’échantillon.

Une visualisation de ce qui se passe:

Chaque cercle coloré représente les hommes ou les femmes qui ont échantillonné chaque saveur, la position du centre de chaque cercle correspond à la probabilité de ce groupe d’aimer la saveur. Notez que les deux groupes se trouvent plus à droite (ont une probabilité plus élevée) d’aimer la pêche. Au fur et à mesure que les cercles se développent (c’est-à-dire que les proportions des échantillons changent), nous pouvons voir comment la probabilité marginale d’aimer la saveur change. Les distributions marginales changent et changent à mesure que les échantillons deviennent pondérés par rapport à la variable tapie (sexe).

Dans cet exemple, nos résultats ne sont pas concluants, car il y a des compromis à choisir l’un ou l’autre point de vue des données en fonction de ce que notre équipe marketing souhaite réaliser. Considérer les regroupements et réaliser que nos résultats ne sont pas concluants est plus utile pour notre entreprise que de parvenir à une conclusion instable, et rapporter cela est la bonne chose à faire pour que nous puissions revenir à la planche à dessin et rééchantillonner et planifier une étude plus approfondie qui générera de véritables informations.



+