Simpsons paradoks og tolkning af Data

udfordringen med at finde den rigtige visning gennem data

Edvard Hugh Simpson, en statistiker og tidligere kryptanalytiker ved Bletchley Park, beskrev det statistiske fænomen, der tager hans navn i et teknisk papir i 1951. Simpsons paradoks fremhæver en af mine yndlings ting om data: behovet for god intuition med hensyn til den virkelige verden, og hvordan de fleste data er en endelig dimensionel repræsentation af et meget større, meget mere komplekst domæne. Datavidenskabens kunst ser ud over dataene-bruger og udvikler metoder og værktøjer til at få en ide om, hvordan den skjulte virkelighed ser ud. Simpsons paradoks viser vigtigheden af skepsis og fortolkning af data med hensyn til den virkelige verden, og også farerne ved at forenkle en mere kompleks sandhed ved at forsøge at se hele historien fra et enkelt datasynspunkt.

paradokset er relativt enkelt at angive og er ofte en årsag til forvirring og forkert information for ikke-statistisk uddannede målgrupper:

Simpsons paradoks:
en tendens eller et resultat, der er til stede, når data sættes i grupper, der vender eller forsvinder, når dataene kombineres.

et af de mest berømte eksempler på Simpsons paradoks er UC Berkleys mistænkte kønsforstyrrelse. I begyndelsen af det akademiske år i 1973 havde UC Berkeley ‘ s graduate school optaget omkring 44% af deres mandlige ansøgere og 35% af deres kvindelige ansøgere. Historien går normalt, at skolen blev sagsøgt for kønsdiskrimination, selvom dette faktisk ikke er sandt. Skolen frygtede dog en retssag, og så fik de statistiker Peter Bickel til at se på dataene. Hvad han fandt var overraskende: der var en statistisk signifikant kønsfordeling til fordel for kvinder for 4 ud af 6 afdelinger, og ingen signifikant kønsfordeling i de resterende 2. Bickel ‘ s team opdagede, at kvinder havde en tendens til at ansøge om afdelinger, der generelt optog en mindre procentdel af ansøgere, og at denne skjulte variabel påvirkede marginalværdierne for procentdelen af accepterede ansøgere på en sådan måde, at de vendte den tendens, der eksisterede i dataene som helhed. I det væsentlige vendte konklusionen, da Bickel ‘ s team ændrede deres datasynspunkt for at redegøre for, at skolen blev opdelt i afdelinger!

et visuelt eksempel: den overordnede tendens vender, når data er grupperet efter en farve-repræsenteret kategori.

Simpsons paradoks kan gøre beslutningsprocessen hårdt. Vi kan undersøge og omgruppere og genprøve vores data så meget som vi er i stand til, men hvis der kan drages flere forskellige konklusioner fra alle de forskellige kategoriseringer, er det et nuanceret og vanskeligt problem at vælge en gruppering at drage vores konklusioner fra for at få indsigt og udvikle strategier. Vi er nødt til at vide, hvad vi leder efter, og vælge det bedste datasynspunkt, der giver en retfærdig repræsentation af sandheden. Lad os tænke på et simpelt eksempel i erhvervslivet.

Antag, at vi er i læskedrikkeindustrien, og vi forsøger at vælge mellem to nye smag, vi har produceret. Vi kunne prøve den offentlige mening om de to varianter — lad os sige, at vi vælger at gøre det ved at oprette to prøveudtagningsboder til hver smag i et travlt område og spørge 1000 mennesker ved hver bås, om de nyder den nye smag.

vi kan se, at 80% af mennesker nød ‘syndig jordbær’, mens kun 75% af mennesker nød ‘lidenskabelig fersken’. Så ‘syndig jordbær’ er mere tilbøjelige til at være den foretrukne smag.

Antag nu, at vores marketingteam indsamlede nogle andre oplysninger, mens de gennemførte undersøgelsen, såsom køn på den person, der prøver drikken. Hvad sker der, hvis vi deler vores data op efter køn?

Dette antyder, at 84,4% af mændene og 40% af kvinderne kunne lide ‘syndig jordbær’, mens 85,7% af mændene og 50% af kvinderne kunne lide ‘lidenskabelig fersken’. Hvis vi holder op med at tænke, dette kan virke lidt underligt: ifølge vores stikprøvedata foretrækker folk generelt ‘syndig jordbær’, men både mænd og kvinder foretrækker separat’lidenskabelig fersken’. Dette er et eksempel på Simpsons paradoks!
vores intuition fortæller os, at den smag, der foretrækkes både når en person er mand eller kvinde, også bør foretrækkes, når deres køn er ukendt, og det er ret mærkeligt at finde ud af, at dette ikke er sandt — dette er hjertet i paradokset.

lurer variabler

Simpsons paradoks opstår, når der er skjulte variabler, der opdeler data i flere separate distributioner. En sådan skjult variabel betegnes passende som en lurende variabel, og de kan ofte være vanskelige at identificere. Heldigvis, dette er ikke tilfældet i vores læskedrik eksempel, og vores marketingteam skal hurtigt være i stand til at se, at køn på den person, der prøver de nye smag, påvirker deres mening.

en måde paradokset kan forklares på er ved at overveje den lurende variabel (køn) og en lille smule sandsynlighedsteori:

P (kunne lide jordbær) = P (kunne lide jordbær | mand)P (mand) + P (kunne lide jordbær | kvinde)P (kvinde)

800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)

P (kunne lide fersken) = P (kunne lide fersken / mand)P (mand) + P(kunne lide fersken | kvinde)P (kvinde)

750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)

vi kan tænke på de marginale sandsynligheder for køn (P (mand) og P (kvinde)) som vægte, der i tilfælde af ‘syndig jordbær’ får den samlede sandsynlighed til at blive forskudt markant mod den mandlige mening. Mens der stadig er en skjult mandlig bias i vores’ lidenskabelige fersken ‘ – prøve, er den ikke helt så stærk, og der tages derfor hensyn til en større andel af den kvindelige mening. Dette resulterer i en lavere marginal Sandsynlighed for, at den generelle befolkning foretrækker denne smag, på trods af at hvert køn er mere tilbøjelige til at foretrække det, når det adskilles i prøven.

en visualisering af hvad der foregår:

hver farvet cirkel repræsenterer enten de mænd eller kvinder, der samplede hver smag, placeringen af midten af hver cirkel svarer til den gruppes Sandsynlighed for at kunne lide smagen. Bemærk, at begge grupper ligger længere til højre (har højere sandsynlighed) for at kunne lide fersken. Når cirklerne vokser (dvs.prøveforhold ændres), kan vi se, hvordan den marginale Sandsynlighed for at kunne lide smagen ændres. De marginale fordelinger skifter og skifter, når prøver vægtes i forhold til den lurende variabel (køn).

i dette eksempel, vores resultater er temmelig ufattelige, da der er afvejninger til at vælge enten data-synspunkt afhængigt af, hvad vores marketing team ønsker at opnå. I betragtning af grupperingerne og at indse, at vores resultater er ufattelige, er det mere nyttigt for vores forretning end at komme med en ustabil konklusion, og rapportering af dette er den rigtige ting at gøre, så vi kan gå tilbage til tegnebrættet og prøve igen og planlægge en mere dybdegående undersøgelse, der vil skabe reel indsigt.