Paradoxo de Simpson e Interpretação de Dados

O desafio de encontrar o direito de ver através de dados

Edward Hugh Simpson, um estatístico e ex-criptoanalista em Bletchley Park, descreveu o fenômeno estatístico que leva o seu nome em um papel de técnico em 1951. O paradoxo de Simpson destaca uma das minhas coisas favoritas sobre dados: a necessidade de uma boa intuição sobre o mundo real e como a maioria dos dados é uma representação dimensional finita de um domínio muito maior e muito mais complexo. A arte da ciência dos dados está vendo além dos dados — usando e desenvolvendo métodos e ferramentas para ter uma idéia de como essa realidade oculta se parece. O paradoxo de Simpson mostra a importância do ceticismo e da interpretação de dados em relação ao mundo real, e também os perigos de simplificar excessivamente uma verdade mais complexa, tentando ver toda a história a partir de um único ponto de vista de dados.

o paradoxo é relativamente simples de afirmar, e é muitas vezes uma causa de confusão e desinformação para públicos não formados estatisticamente:

paradoxo de Simpson:
Uma tendência ou resultado que está presente quando os dados são colocados em grupos que inverte ou desaparece quando os dados são combinados.

Um dos mais famosos exemplos de Simpson paradoxo é Berkley, suspeito de gênero, preconceito. No início do ano acadêmico, em 1973, a Universidade de Berkeley tinha admitido cerca de 44% de seus candidatos masculinos e 35% de suas candidatas femininas. A história geralmente diz que a escola foi processada por discriminação de gênero, embora isso não seja realmente verdade. A escola, no entanto, temeu um processo, e assim eles tiveram o estatístico Peter Bickel olhar para os dados. O que ele encontrou foi surpreendente: houve uma tendência estatisticamente significativa de gênero em favor das mulheres para 4 dos 6 departamentos, e nenhuma tendência significativa de gênero nos restantes 2. Bickel equipe descobriram que as mulheres tendem a aplicar aos departamentos, que admitiu uma menor percentagem de candidatos no geral, e que esta variável oculta afetados marginal valores para a percentagem de candidatos aceites de forma a inverter a tendência que existia nos dados como um todo. Essencialmente, a conclusão mudou quando a equipe de Bickel mudou seu ponto de vista de dados para explicar a Escola ser dividida em departamentos!