Paradoja de Simpson e Interpretación de los Datos

El desafío de encontrar la vista correcta a través de datos

Edward Hugh Simpson, un estadístico y ex criptoanalista de Bletchley Park, describió el fenómeno estadístico que lleva su nombre en un documento técnico en 1951. La paradoja de Simpson destaca una de mis cosas favoritas sobre los datos: la necesidad de una buena intuición con respecto al mundo real y cómo la mayoría de los datos son una representación dimensional finita de un dominio mucho más grande y complejo. El arte de la ciencia de datos es ver más allá de los datos: usar y desarrollar métodos y herramientas para tener una idea de cómo se ve esa realidad oculta. La paradoja de Simpson muestra la importancia del escepticismo y la interpretación de los datos con respecto al mundo real, y también los peligros de simplificar en exceso una verdad más compleja al tratar de ver toda la historia desde un único punto de vista de los datos.

La paradoja es relativamente simple de declarar, y a menudo es una causa de confusión y desinformación para audiencias no entrenadas estadísticamente:

Paradoja de Simpson:
Una tendencia o resultado que está presente cuando los datos se agrupan, que se invierte o desaparece cuando se combinan los datos.

Uno de los ejemplos más famosos de los Simpson la paradoja es que la UC Berkley sospecha de género. Al comienzo del año académico en 1973, la escuela de posgrado de UC Berkeley había admitido aproximadamente el 44% de sus solicitantes masculinos y el 35% de sus solicitantes femeninas. Por lo general, la historia dice que la escuela fue demandada por discriminación de género, aunque esto no es cierto. Sin embargo, la escuela temía una demanda, por lo que hicieron que el estadístico Peter Bickel revisara los datos. Lo que encontró fue sorprendente: hubo un sesgo de género estadísticamente significativo a favor de las mujeres en 4 de los 6 departamentos, y ningún sesgo de género significativo en los 2 restantes. El equipo de Bickel descubrió que las mujeres tendían a presentarse a los departamentos que admitían un porcentaje menor de solicitantes en general, y que esta variable oculta afectaba a los valores marginales del porcentaje de solicitantes aceptados de tal manera que se invertía la tendencia que existía en los datos en su conjunto. Esencialmente, la conclusión cambió cuando el equipo de Bickel cambió su punto de vista de datos para explicar que la escuela estaba dividida en departamentos.

Un ejemplo visual: la tendencia general se invierte cuando los datos se agrupan por alguna categoría representada por colores.

La paradoja de Simpson puede dificultar la toma de decisiones. Podemos analizar y reagrupar y volver a muestrear nuestros datos tanto como podamos, pero si se pueden extraer múltiples conclusiones diferentes de todas las categorías diferentes, entonces elegir un grupo para extraer nuestras conclusiones con el fin de obtener información y desarrollar estrategias es un problema matizado y difícil. Necesitamos saber lo que estamos buscando y elegir el mejor punto de vista de datos que ofrezca una representación justa de la verdad. Pensemos en un ejemplo simple en los negocios.

Supongamos que estamos en la industria de los refrescos y estamos tratando de elegir entre dos nuevos sabores que hemos producido. Podríamos probar la opinión pública sobre los dos sabores, digamos que elegimos hacerlo creando dos puestos de degustación para cada sabor en una zona concurrida y preguntando a 1000 personas en cada puesto si disfrutan del nuevo sabor.

Podemos ver que el 80% de las personas disfrutaron de la «Fresa Pecaminosa», mientras que solo el 75% de las personas disfrutaron del «Melocotón Apasionado». Por lo tanto, es más probable que el sabor preferido sea «fresa pecaminosa».

Ahora, supongamos que nuestro equipo de marketing recopiló alguna otra información mientras realizaba la encuesta, como el sexo de la persona que tomaba la bebida. ¿Qué pasa si dividimos nuestros datos por sexo?

Esto sugiere que al 84,4% de los hombres y al 40% de las mujeres les gustaba «Fresa Pecaminosa», mientras que al 85,7% de los hombres y al 50% de las mujeres les gustaba «Melocotón Apasionado». Si nos detenemos a pensar, esto puede parecer un poco extraño: de acuerdo con los datos de nuestra muestra, generalmente la gente prefiere la «Fresa Pecaminosa», pero tanto los hombres como las mujeres prefieren por separado el «Melocotón apasionado». ¡Este es un ejemplo de la paradoja de Simpson!
Nuestra intuición nos dice que el sabor que se prefiere cuando una persona es hombre o mujer también se debe preferir cuando se desconoce su sexo, y es bastante extraño descubrir que esto no es cierto, este es el corazón de la paradoja.

Variables ocultas

La paradoja de Simpson surge cuando hay variables ocultas que dividen los datos en múltiples distribuciones separadas. Tal variable oculta se conoce acertadamente como una variable oculta, y a menudo pueden ser difíciles de identificar. Afortunadamente, este no es el caso en nuestro ejemplo de refrescos, y nuestro equipo de marketing debería poder ver rápidamente que el sexo de la persona que prueba los nuevos sabores está afectando su opinión.

Una forma de explicar la paradoja es considerando la variable oculta (sexo) y un poco de teoría de probabilidad:

P(Le Gusta La Fresa) = P(Gustaba De Fresa | Hombre)P(Hombre) + P(Gustaba De Fresa | Mujer)P(Mujer)

800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)

P(Le Gusta El Durazno) = P(Le Gusta El Durazno | Hombre)P(Hombre) + P(Le Gusta El Durazno | Mujer)P(Mujer)

750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)

podemos pensar en las probabilidades marginales de sexo (P(Hombre) y P(Mujer)) como los pesos que, en el caso de ‘Pecado de la Fresa’, hacen que el total de la probabilidad de ser cambiado significativamente hacia la opinión masculina. Si bien todavía hay un sesgo masculino oculto en nuestra muestra de «Melocotón apasionado», no es tan fuerte y, por lo tanto, se tiene en cuenta una mayor proporción de la opinión femenina. Esto da como resultado una menor probabilidad marginal de que la población general prefiera este sabor a pesar de que cada sexo es más probable que lo prefiera cuando se separa dentro de la muestra.

Una visualización de lo que está pasando:

Cada círculo de color representa a los hombres o a las mujeres que muestrearon cada sabor, la posición del centro de cada círculo corresponde a la probabilidad de que a ese grupo le guste el sabor. Observe que ambos grupos se encuentran más a la derecha (tienen una mayor probabilidad) de que les guste el melocotón. A medida que crecen los círculos (es decir, cambian las proporciones de la muestra), podemos ver cómo cambia la probabilidad marginal de que le guste el sabor. Las distribuciones marginales cambian y cambian a medida que las muestras se ponderan con respecto a la variable oculta (sexo).

En este ejemplo, nuestros hallazgos no son concluyentes, ya que elegir cualquiera de los puntos de vista de datos depende de lo que nuestro equipo de marketing quiera lograr. Considerar las agrupaciones y darnos cuenta de que nuestros hallazgos no son concluyentes es más útil para nuestro negocio que llegar a una conclusión inestable, y reportar esto es lo correcto para que podamos volver a la mesa de dibujo y volver a muestrear y planificar un estudio más profundo que generará una visión real.



+