La sfida di trovare la giusta visione attraverso i dati
Edward Hugh Simpson, uno statistico ed ex crittoanalista a Bletchley Park, descrisse il fenomeno statistico che prende il suo nome in un documento tecnico nel 1951. Il paradosso di Simpson evidenzia una delle mie cose preferite sui dati: la necessità di una buona intuizione riguardo al mondo reale e come la maggior parte dei dati sia una rappresentazione dimensionale finita di un dominio molto più grande e molto più complesso. L’arte della scienza dei dati sta vedendo oltre i dati-utilizzando e sviluppando metodi e strumenti per avere un’idea di come appare quella realtà nascosta. Il paradosso di Simpson mette in mostra l’importanza dello scetticismo e dell’interpretazione dei dati rispetto al mondo reale, e anche i pericoli di semplificare eccessivamente una verità più complessa cercando di vedere l’intera storia da un singolo punto di vista dei dati.
Il paradosso è relativamente semplice da affermare ed è spesso causa di confusione e disinformazione per un pubblico non addestrato statisticamente:
Il paradosso di Simpson:
Una tendenza o un risultato presente quando i dati vengono inseriti in gruppi che inverte o scompare quando i dati vengono combinati.
Uno degli esempi più famosi del paradosso di Simpson è il sospetto pregiudizio di genere di UC Berkley. All’inizio dell’anno accademico nel 1973, la scuola di specializzazione dell’UC Berkeley aveva ammesso circa il 44% dei candidati maschi e il 35% dei candidati femmine. La storia di solito va che la scuola è stata citata in giudizio per discriminazione di genere, anche se questo non è in realtà vero. La scuola ha però paura di una causa, e così hanno avuto statistico Peter Bickel guardare i dati. Quello che ha trovato è stato sorprendente: c’era un pregiudizio di genere statisticamente significativo a favore delle donne per 4 dei 6 dipartimenti, e nessun pregiudizio di genere significativo nel restante 2. Il team di Bickel ha scoperto che le donne tendevano a rivolgersi ai dipartimenti che ammettevano una percentuale minore di candidati nel complesso e che questa variabile nascosta influenzava i valori marginali per la percentuale di candidati accettati in modo tale da invertire la tendenza esistente nei dati nel loro complesso. In sostanza, la conclusione si è capovolta quando la squadra di Bickel ha cambiato il proprio punto di vista dei dati per tenere conto della divisione della scuola in dipartimenti!
Il paradosso di Simpson può rendere difficile il processo decisionale. Possiamo esaminare e raggruppare e ricampionare i nostri dati il più possibile, ma se si possono trarre conclusioni diverse da tutte le diverse categorizzazioni, scegliere un raggruppamento da cui trarre le nostre conclusioni per ottenere informazioni e sviluppare strategie è un problema sfumato e difficile. Abbiamo bisogno di sapere cosa stiamo cercando e di scegliere il miglior punto di vista dei dati che dia una rappresentazione equa della verità. Pensiamo a un semplice esempio nel mondo degli affari.
Supponiamo di essere nel settore delle bevande analcoliche e stiamo cercando di scegliere tra due nuovi sapori che abbiamo prodotto. Potremmo assaggiare l’opinione pubblica sui due sapori-diciamo che scegliamo di farlo allestendo due bancarelle di campionamento per ogni sapore in una zona trafficata e chiedendo a 1000 persone ad ogni bancarella se apprezzano il nuovo sapore.
Possiamo vedere che l ‘80% delle persone ha apprezzato la “Fragola peccaminosa” mentre solo il 75% delle persone ha apprezzato la “Pesca appassionata”. Così ‘Fragola peccaminosa’ è più probabile che sia il sapore preferito.
Ora, supponiamo che il nostro team di marketing abbia raccolto altre informazioni durante lo svolgimento del sondaggio, come il sesso della persona che assaggia la bevanda. Cosa succede se dividiamo i nostri dati per sesso?
Ciò suggerisce che l ‘84,4% degli uomini e il 40% delle donne hanno apprezzato la “Fragola peccaminosa”, mentre l’ 85,7% degli uomini e il 50% delle donne hanno apprezzato la “Pesca appassionata”. Se ci fermiamo a pensare, questo potrebbe sembrare un po ‘ strano: secondo i nostri dati di esempio, generalmente le persone preferiscono la “Fragola peccaminosa”, ma sia gli uomini che le donne preferiscono separatamente la “Pesca appassionata”. Questo è un esempio del paradosso di Simpson!
La nostra intuizione ci dice che il sapore che è preferito sia quando una persona è maschio o femmina dovrebbe essere preferito anche quando il loro sesso è sconosciuto, ed è piuttosto strano scoprire che questo non è vero — questo è il cuore del paradosso.
Variabili in agguato
Il paradosso di Simpson sorge quando ci sono variabili nascoste che dividono i dati in più distribuzioni separate. Tale variabile nascosta è giustamente indicato come una variabile in agguato, e spesso possono essere difficili da identificare. Fortunatamente, questo non è il caso nel nostro esempio di bevande analcoliche, e il nostro team di marketing dovrebbe essere rapidamente in grado di vedere che il sesso della persona che assaggia i nuovi sapori sta influenzando la loro opinione.
Un modo in cui il paradosso può essere spiegato è considerando la variabile in agguato (sesso) e un po ‘ di teoria della probabilità:
P(Piaciuto Fragola) = P(Piaciuto Fragola | Uomo)P(Uomo) + P(Piaciuto Fragola | Donna)P(Donna)
800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)
P(Piaceva La Pesca) = P(Piaciuto Pesca | Uomo)P(Uomo) + P(Piaciuto Pesca | Donna)P(Donna)
750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)
Possiamo pensare di probabilità marginale di sesso (P(Uomo) e P(Donna)) come pesi che, nel caso di ‘Peccato Fragola’, causa la totale probabilità di essere spostato significativamente verso l’opinione maschile. Mentre c’è ancora un pregiudizio maschile nascosto nel nostro campione di “Pesca appassionata”, non è così forte e quindi viene presa in considerazione una percentuale maggiore dell’opinione femminile. Ciò si traduce in una minore probabilità marginale per la popolazione generale di preferire questo sapore nonostante ogni sesso sia più propenso a preferirlo quando separato all’interno del campione.
Una visualizzazione di ciò che sta accadendo:
In questo esempio, i nostri risultati sono piuttosto inconcludenti, in quanto vi sono compromessi nella scelta di entrambi i punti di vista dei dati a seconda di ciò che il nostro team di marketing vuole raggiungere. Considerare i raggruppamenti e rendersi conto che i nostri risultati sono inconcludenti è più utile per il nostro business che arrivare a una conclusione instabile, e riferire questa è la cosa giusta da fare in modo che possiamo tornare al tavolo da disegno e ricampionare e pianificare uno studio più approfondito che genererà una visione reale.