
O desafio de encontrar o direito de ver através de dados
Edward Hugh Simpson, um estatístico e ex-criptoanalista em Bletchley Park, descreveu o fenômeno estatístico que leva o seu nome em um papel de técnico em 1951. O paradoxo de Simpson destaca uma das minhas coisas favoritas sobre dados: a necessidade de uma boa intuição sobre o mundo real e como a maioria dos dados é uma representação dimensional finita de um domínio muito maior e muito mais complexo. A arte da ciência dos dados está vendo além dos dados — usando e desenvolvendo métodos e ferramentas para ter uma idéia de como essa realidade oculta se parece. O paradoxo de Simpson mostra a importância do ceticismo e da interpretação de dados em relação ao mundo real, e também os perigos de simplificar excessivamente uma verdade mais complexa, tentando ver toda a história a partir de um único ponto de vista de dados.
o paradoxo é relativamente simples de afirmar, e é muitas vezes uma causa de confusão e desinformação para públicos não formados estatisticamente:
paradoxo de Simpson:
Uma tendência ou resultado que está presente quando os dados são colocados em grupos que inverte ou desaparece quando os dados são combinados.

Um dos mais famosos exemplos de Simpson paradoxo é Berkley, suspeito de gênero, preconceito. No início do ano acadêmico, em 1973, a Universidade de Berkeley tinha admitido cerca de 44% de seus candidatos masculinos e 35% de suas candidatas femininas. A história geralmente diz que a escola foi processada por discriminação de gênero, embora isso não seja realmente verdade. A escola, no entanto, temeu um processo, e assim eles tiveram o estatístico Peter Bickel olhar para os dados. O que ele encontrou foi surpreendente: houve uma tendência estatisticamente significativa de gênero em favor das mulheres para 4 dos 6 departamentos, e nenhuma tendência significativa de gênero nos restantes 2. Bickel equipe descobriram que as mulheres tendem a aplicar aos departamentos, que admitiu uma menor percentagem de candidatos no geral, e que esta variável oculta afetados marginal valores para a percentagem de candidatos aceites de forma a inverter a tendência que existia nos dados como um todo. Essencialmente, a conclusão mudou quando a equipe de Bickel mudou seu ponto de vista de dados para explicar a Escola ser dividida em departamentos!


podemos ver que 80% das pessoas que gostava de ‘Pecadores Morango” considerando que apenas 75% das pessoas curtiram ‘Apaixonado Pêssego’. Então ‘morango pecaminoso’ é mais provável ser o sabor preferido.Agora, suponha que nossa equipe de marketing coletou algumas outras informações durante a realização da pesquisa, tais como o sexo da pessoa amostrando a bebida. O que acontece se dividirmos os nossos dados por sexo?

Isto sugere que 84,4% dos homens e 40% das mulheres gostei ‘Pecadora Morango” considerando que, de 85,7% de homens e 50% das mulheres gostei ‘Apaixonado Pêssego’. Se pararmos para pensar, isto pode parecer um pouco estranho.: de acordo com a nossa amostra de dados, geralmente as pessoas preferem “morango pecaminoso”, mas tanto homens como mulheres separadamente preferem “pêssego apaixonado”. Este é um exemplo do paradoxo de Simpson!
nossa intuição nos diz que o sabor que é preferido tanto quando uma pessoa é homem ou mulher também deve ser preferido quando seu sexo é desconhecido, e é muito estranho descobrir que isso não é verdade — este é o coração do paradoxo.

à Espreita variáveis
Simpson paradoxo surge quando existem variáveis ocultas que dividir os dados em várias distribuições individuais. Tal variável escondida é apropriadamente referida como uma variável escondida, e muitas vezes podem ser difíceis de identificar. Felizmente, este não é o caso do nosso exemplo de refrigerantes, e a nossa equipa de marketing deve rapidamente ser capaz de ver que o sexo da pessoa que está a experimentar os novos sabores está a afectar a sua opinião.
uma maneira que o paradoxo pode ser explicado é considerando a variável oculta (sexo) e um pouco da teoria da probabilidade:
P(Gostava De Morango) = P(Gostava De Morango | Homem)P(Homem) + P(Gostava De Morango | Mulher)P(Mulher)
800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)
P(Gostava De Pêssego) = P(Gostava De Pêssego | Homem)P(Homem) + P(Gostava De Pêssego | Mulher)P(Mulher)
750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)

podemos pensar nas probabilidades marginais de sexo (P(Homem) e P(Mulher), como pesos que, no caso de ‘Pecadores Morango’, fazer com que a probabilidade total a ser significativamente deslocadas para a opinião masculina. Embora ainda haja um preconceito masculino oculto na nossa amostra de “pêssego apaixonado”, ela não é tão forte e, portanto, uma maior proporção da opinião feminina está sendo levada em conta. Isso resulta em uma menor probabilidade marginal para a população em geral de preferir este sabor, apesar de cada Sexo ser mais provável de preferi-lo quando separado dentro da amostra.Uma visualização do que está a acontecer:

neste exemplo, as nossas descobertas são bastante inconclusivas, uma vez que há vantagens em escolher qualquer ponto de vista de dados, dependendo do que a nossa equipa de marketing quer alcançar. Considerando os agrupamentos e percebendo que nossas descobertas são inconclusivas é mais útil para o nosso negócio do que chegar a uma conclusão instável, e relatar esta é a coisa correta a fazer para que possamos voltar ao desenho e repetir e planejar um estudo mais aprofundado que irá gerar uma percepção real.