utmaningen att hitta rätt vy genom data
Edward Hugh Simpson, en statistiker och tidigare kryptanalytiker vid Bletchley Park, beskrev det statistiska fenomenet som tar hans namn i ett tekniskt papper 1951. Simpsons paradox belyser en av mina favorit saker om data: behovet av god intuition om den verkliga världen och hur de flesta data är en ändlig dimensionell representation av en mycket större, mycket mer komplex domän. Datavetenskapens konst ser bortom data-använder och utvecklar metoder och verktyg för att få en uppfattning om hur den dolda verkligheten ser ut. Simpsons paradox visar vikten av skepsis och tolkning av data med avseende på den verkliga världen, och även farorna med att förenkla en mer komplex sanning genom att försöka se hela historien från en enda datasynpunkt.
paradoxen är relativt enkel att ange och är ofta en orsak till förvirring och felinformation för icke-statistiskt utbildade publikgrupper:
Simpsons Paradox:
en trend eller ett resultat som är närvarande när data läggs i grupper som vänder eller försvinner när data kombineras.
ett av de mest kända exemplen på Simpsons paradox är UC Berkleys misstänkta könsfördomar. I början av läsåret 1973 hade UC Berkeleys forskarskola antagit ungefär 44% av sina manliga sökande och 35% av sina kvinnliga sökande. Historien brukar säga att skolan stämdes för könsdiskriminering, även om detta inte är sant. Skolan fruktade dock en rättegång, och så fick de statistiker Peter Bickel titta på uppgifterna. Vad han fann var förvånande: det fanns en statistiskt signifikant könsförskjutning till förmån för kvinnor för 4 ut ur 6 avdelningar, och ingen signifikant könsförskjutning i den återstående 2. Bickels team upptäckte att kvinnor tenderade att ansöka om avdelningar som antog en mindre andel sökande totalt sett och att denna dolda variabel påverkade marginalvärdena för andelen godkända sökande på ett sådant sätt att vända trenden som fanns i uppgifterna som helhet. I huvudsak vred slutsatsen när Bickels team ändrade sin datasynpunkt för att redogöra för att skolan delades in i avdelningar!
Simpsons paradox kan göra beslutsfattandet svårt. Vi kan granska och omgruppera och sampla om våra data så mycket vi kan, men om flera olika slutsatser kan dras från alla olika kategoriseringar är det ett nyanserat och svårt problem att välja en gruppering för att dra våra slutsatser för att få insikt och utveckla strategier. Vi behöver veta vad vi letar efter, och att välja den bästa datasynpunkten som ger en rättvis representation av sanningen. Låt oss tänka på ett enkelt exempel i affärer.
Antag att vi är i läskindustrin och vi försöker välja mellan två nya smaker vi har producerat. Vi kan prova den allmänna opinionen på de två smakerna-låt oss säga att vi väljer att göra det genom att sätta upp två provtagningsboder för varje smak i ett livligt område och fråga 1000 personer vid varje stall om de tycker om den nya smaken.
vi kan se att 80% av människorna tyckte om ’Sinful Strawberry’ medan endast 75% av människorna tyckte om ’Passionate Peach’. Så ’Sinful Strawberry’ är mer sannolikt att vara den föredragna smaken.
Antag nu att vårt marknadsföringsteam samlade in annan information under undersökningen, till exempel kön på den person som samplar drycken. Vad händer om vi delar upp våra data efter kön?
detta tyder på att 84,4% av männen och 40% av kvinnorna gillade ’Sinful Strawberry’ medan 85,7% av männen och 50% av kvinnorna gillade ’Passionate Peach’. Om vi slutar tänka kan det tyckas lite konstigt: enligt våra exempeldata, i allmänhet människor föredrar ’Sinful Strawberry’, men både män och kvinnor separat föredrar’passionerad persika’. Detta är ett exempel på Simpsons Paradox!
vår intuition berättar för oss att den smak som föredras både när en person är man eller kvinna bör också föredras när deras kön är okänt, och det är ganska konstigt att ta reda på att detta inte är sant — det här är hjärtat av paradoxen.
lurande variabler
Simpsons paradox uppstår när det finns dolda variabler som delar upp data i flera separata distributioner. En sådan dold variabel kallas träffande en lurande variabel, och de kan ofta vara svåra att identifiera. Lyckligtvis, detta är inte fallet i vår läsk exempel, och vårt marknadsföringsteam bör snabbt kunna se att sex personen provtagning de nya smakerna påverkar deras åsikt.
ett sätt som paradoxen kan förklaras är genom att överväga den lurande variabeln (kön) och lite sannolikhetsteori:
P (gillade jordgubbe) = P (gillade jordgubbe / Man)P (Man) + P (gillade jordgubbe / kvinna)P (Kvinna)
800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)
P (gillade persika) = P (gillade persika / Man)P (Man) + P (gillade persika | kvinna)P (Kvinna)
750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)
vi kan tänka på de marginella sannolikheterna för kön(P(Man) och p (kvinna)) som vikter som, i fallet med ’syndig jordgubbe’, orsakar att den totala sannolikheten förskjuts avsevärt mot den manliga åsikten. Även om det fortfarande finns en dold manlig bias i vårt ’Passionate Peach’ – prov, är det inte riktigt lika starkt och därmed beaktas en större andel av den kvinnliga åsikten. Detta resulterar i en lägre marginell Sannolikhet för den allmänna befolkningen att föredra denna smak trots att varje kön är mer benägna att föredra det när det separeras i provet.
en visualisering av vad som händer:
i det här exemplet är våra resultat ganska ofullständiga, eftersom det finns kompromisser att välja antingen datasynpunkt beroende på vad vårt marknadsföringsteam vill uppnå. Med tanke på grupperingar och inse att våra resultat är ofullständiga är mer användbar för vår verksamhet än att komma fram till en ostadig slutsats, och rapportera detta är rätt sak att göra så att vi kan gå tillbaka till ritbordet och sampla och planera en mer djupgående studie som kommer att generera verklig insikt.