utfordringen med å finne riktig syn gjennom data
Edward Hugh Simpson, en statistiker og tidligere kryptanalytiker Ved Bletchley Park, beskrev det statistiske fenomenet som tar navnet hans i et teknisk papir i 1951. Simpsons paradoks fremhever en av mine favoritt ting om data: behovet for god intuisjon om den virkelige verden og hvordan de fleste data er en endelig dimensjonal representasjon av et mye større, mye mer komplekst domene. Datavitenskapens kunst ser utover dataene-bruker og utvikler metoder og verktøy for å få en ide om hva den skjulte virkeligheten ser ut. Simpsons paradoks viser betydningen av skepsis og tolkning av data med hensyn til den virkelige verden, og også farene ved å forenkle en mer kompleks sannhet ved å prøve å se hele historien fra et enkelt datasynspunkt.
paradokset er relativt enkelt å si, og er ofte en årsak til forvirring og feilinformasjon for ikke-statistisk trente publikum:
Simpsons Paradoks:
en trend eller et resultat som er tilstede når data settes inn i grupper som reverserer eller forsvinner når dataene kombineres.
Et av De mest kjente eksemplene På Simpsons paradoks er UC Berkleys mistenkte kjønnsbias. I begynnelsen av studieåret i 1973 hadde UC Berkeley graduate school innrømmet omtrent 44% av sine mannlige søkere og 35% av sine kvinnelige søkere. Historien går vanligvis at skolen ble saksøkt for kjønnsdiskriminering, selv om dette egentlig ikke er sant. Skolen fryktet imidlertid et søksmål, og så hadde de statistiker Peter Bickel se på dataene. Det han fant var overraskende: det var en statistisk signifikant kjønnsbias til fordel for kvinner for 4 av de 6 avdelingene, og ingen signifikant kjønnsbias i de resterende 2. Bickels team oppdaget at kvinner hadde en tendens til å søke på avdelinger som innrømmet en mindre prosentandel av søkere generelt, og at denne skjulte variabelen påvirket marginalverdiene for prosentandelen av aksepterte søkere på en slik måte at den reverserte trenden som eksisterte i dataene som helhet. I hovedsak vendte konklusjonen da Bickels team endret sitt datasynspunkt for å ta hensyn til at skolen ble delt inn i avdelinger!
Simpsons paradoks kan gjøre beslutningsprosesser vanskelig. Vi kan granske og omgruppere og resample våre data så mye som vi er i stand til, men hvis flere forskjellige konklusjoner kan trekkes fra alle de forskjellige kategoriseringer, deretter velge en gruppering å trekke våre konklusjoner fra for å få innsikt og utvikle strategier er en nyansert og vanskelig problem. Vi trenger å vite hva vi er ute etter, og å velge den beste data-synspunkt som gir en rettferdig representasjon av sannheten. La oss tenke på et enkelt eksempel i virksomheten.
Anta at vi er i brusindustrien, og vi prøver å velge mellom to nye smaker vi har produsert. La oss si at vi velger å gjøre det ved å sette opp to prøvetakingsboder for hver smak i et travelt område og spørre 1000 personer på hver stall om de liker den nye smaken.
vi kan se at 80% av folk likte ‘Syndig Jordbær’ mens bare 75% av folk likte ‘Lidenskapelig Fersken’. Så ‘Syndig Jordbær’ er mer sannsynlig å være den foretrukne smaken.
anta nå at markedsføringsteamet vårt samlet inn annen informasjon mens de gjennomførte undersøkelsen, for eksempel kjønn på personen som prøvde drikken. Hva skjer hvis vi dele våre data opp etter kjønn?
dette antyder at 84,4% av menn og 40% av kvinner likte ‘Syndig Jordbær’ mens 85,7% av menn og 50% av kvinner likte ‘Lidenskapelig Fersken’. Hvis vi slutter å tenke, kan dette virke litt rart: ifølge våre eksempeldata, generelt folk foretrekker ‘Syndig Jordbær’, men både menn og kvinner hver for seg foretrekker ‘Lidenskapelig Fersken’. Dette er Et Eksempel På Simpsons Paradoks!
vår intuisjon forteller oss at smaken som foretrekkes både når en person er mann eller kvinne, også bør foretrekkes når deres kjønn er ukjent, og det er ganske rart å finne ut at dette ikke er sant — dette er hjertet av paradokset.
Lurking variables
Simpsons paradoks oppstår når det er skjulte variabler som deler data i flere separate fordelinger. En slik skjult variabel er treffende referert til som en lurking variabel, og de kan ofte være vanskelig å identifisere. Heldigvis er dette ikke tilfelle i vårt brus-eksempel, og vårt markedsføringsteam bør raskt kunne se at kjønnet til personen som prøver de nye smakene, påvirker deres mening.
en måte paradokset kan forklares er ved å vurdere lurking variabel (sex) og en liten bit av sannsynlighetsteori:
P(Likte Jordbær) = P (Likte Jordbær | Mann)P (Mann) + P (Likte Jordbær / Kvinne) P(Kvinne)
800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)
P (Likte Fersken) = P (Likte Fersken | Mann)P (Mann) + P (Likte Fersken / Kvinne) P(Kvinne)
750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)
vi kan tenke på de marginale sannsynlighetene for sex(P (Mann) og P (Kvinne)) som vekter som, når Det gjelder ‘Syndig Jordbær’, forårsaker den totale sannsynligheten å bli betydelig skiftet mot den mannlige oppfatningen. Mens det fortsatt er en skjult mannlig skjevhet i Vår ‘Lidenskapelig Fersken’ prøve, det er ikke fullt så sterk og dermed en større andel av den kvinnelige mening blir tatt hensyn til. Dette resulterer i en lavere marginal sannsynlighet for at den generelle befolkningen foretrekker denne smaken til tross for at hvert kjønn er mer sannsynlig å foretrekke det når det skilles i prøven.
en visualisering av hva som skjer:
i dette eksemplet er våre funn ganske ufullstendige, da det er avvik for å velge enten datasynspunkt avhengig av hva vårt markedsføringsteam ønsker å oppnå. Å vurdere grupperingene og innse at våre funn er ufullstendige, er mer nyttig for vår virksomhet enn å komme opp med en ustabil konklusjon, og rapportering av dette er den riktige tingen å gjøre slik at vi kan gå tilbake til tegnebrettet og resample og planlegge en mer grundig studie som vil generere reell innsikt.