the challenge of finding the right view through data
Edward Hugh Simpson, een statisticus en voormalig cryptanalyticus in Bletchley Park, beschreef het statistische fenomeen dat zijn naam kreeg in een technisch artikel in 1951. Simpson ‘ s paradox belicht een van mijn favoriete dingen over data: de behoefte aan goede intuïtie over de echte wereld en hoe de meeste data een eindige dimensionale representatie is van een veel groter, veel complexer domein. De kunst van data science is verder kijken dan de data — het gebruiken en ontwikkelen van methoden en tools om een idee te krijgen van hoe die verborgen realiteit eruit ziet. Simpson ‘ s paradox toont het belang van scepsis en het interpreteren van gegevens met betrekking tot de echte wereld, en ook de gevaren van het oversimplificeren van een meer complexe waarheid door te proberen om het hele verhaal te zien vanuit een enkel data-gezichtspunt.
de paradox is relatief eenvoudig te verklaren en is vaak een oorzaak van verwarring en verkeerde informatie voor niet-statistisch opgeleide doelgroepen:
de Paradox van Simpson:
een trend of resultaat dat aanwezig is wanneer gegevens in groepen worden ondergebracht die bij het combineren van de gegevens omkeert of verdwijnt.
een van de beroemdste voorbeelden van Simpson ’s paradox is UC Berkley’ s vermoedelijke gender-bias. Aan het begin van het academisch jaar in 1973, UC Berkeley ‘ s graduate school had toegelaten ruwweg 44% van hun mannelijke aanvragers en 35% van hun vrouwelijke aanvragers. Het verhaal gaat meestal dat de school werd aangeklaagd voor genderdiscriminatie, hoewel dit eigenlijk niet waar is. De school was echter bang voor een rechtszaak, en dus lieten ze statisticus Peter Bickel naar de gegevens kijken. Wat hij vond was verrassend: er was een statistisch significante gendervooroordeel in het voordeel van vrouwen voor 4 van de 6 afdelingen, en geen significante gendervooroordeel in de resterende 2. Het team van Bickel ontdekte dat vrouwen meestal solliciteerden naar afdelingen die een kleiner percentage van de aanvragers in het algemeen toestonden, en dat deze verborgen variabele de marginale waarden voor het percentage van de geaccepteerde aanvragers zodanig beïnvloedde dat de trend die bestond in de gegevens als geheel werd omgekeerd. In wezen, de conclusie flipte toen Bickel ‘ s team veranderde hun data-standpunt om rekening te houden met de school wordt verdeeld in afdelingen!
Simpson ‘ s paradox kan besluitvorming moeilijk maken. We kunnen onze gegevens zoveel mogelijk onderzoeken, hergroeperen en resamplen, maar als er meerdere verschillende conclusies kunnen worden getrokken uit alle verschillende categorisaties, dan is het kiezen van een groepering om onze conclusies te trekken om inzicht te krijgen en strategieën te ontwikkelen een genuanceerd en moeilijk probleem. We moeten weten waar we naar op zoek zijn en de beste data-visie kiezen die een eerlijke weergave van de waarheid geeft. Laten we denken aan een eenvoudig voorbeeld in het bedrijfsleven.
stel dat we in de frisdrankenindustrie zitten en we proberen te kiezen tussen twee nieuwe smaken die we hebben geproduceerd. We zouden de publieke opinie over de twee smaken kunnen proeven — laten we zeggen dat we ervoor kiezen om dit te doen door het opzetten van twee stalen kraampjes voor elke smaak in een drukke omgeving en vragen 1000 mensen bij elke kraam of ze genieten van de nieuwe smaak.
we kunnen zien dat 80% van de mensen genoten van ‘zondige aardbei’ terwijl slechts 75% van de mensen genoten van ‘gepassioneerde perzik’. Dus ‘Sinful Strawberry’ is eerder de voorkeursmaak.Stel nu dat ons marketingteam andere informatie verzamelde tijdens het uitvoeren van het onderzoek, zoals het geslacht van de persoon die de drank sampelde. Wat gebeurt er als we onze gegevens opsplitsen naar geslacht?
dit wijst erop dat 84,4% van de mannen en 40% van de vrouwen van ‘zondige aardbei’ hield, terwijl 85,7% van de mannen en 50% van de vrouwen van ‘gepassioneerde perzik’hield. Als we erover nadenken, lijkt dit misschien een beetje vreemd.: volgens onze steekproefgegevens geven mensen over het algemeen de voorkeur aan ‘zondige aardbei’, maar zowel mannen als vrouwen afzonderlijk geven de voorkeur aan ‘gepassioneerde perzik’. Dit is een voorbeeld van Simpson ‘ s Paradox!
onze intuïtie vertelt ons dat de smaak die de voorkeur heeft zowel wanneer een persoon man of vrouw is, ook de voorkeur moet krijgen wanneer hun geslacht onbekend is, en het is vrij vreemd om te ontdekken dat dit niet waar is — dit is de kern van de paradox.
Simpson ‘ s paradox ontstaat wanneer er verborgen variabelen zijn die gegevens opsplitsen in meerdere afzonderlijke distributies. Zo ‘ n verborgen variabele wordt treffend aangeduid als een loerende variabele, en ze kunnen vaak moeilijk te identificeren zijn. Gelukkig is dit niet het geval in ons frisdrankvoorbeeld, en ons marketingteam moet snel kunnen zien dat het geslacht van de persoon die de nieuwe smaken samplet zijn mening beïnvloedt.
een manier waarop de paradox kan worden verklaard is door de loerende variabele (geslacht) en een beetje kansrekening te bekijken:
P(Graag Strawberry) = P(Vond Aardbei | Man)P(Man) + P(Vond Aardbei | Vrouw)P(Vrouw)
800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)
P(Vond De Perzik) = P(Vond De Perzik | Man)P(Man) + P(Vond Perzik | Vrouw)P(Vrouw)
750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)
We kunnen denken aan de marginale kansen van geslacht (P(Man) en P(Vrouw)) als gewichten die, in het geval van ‘Zondige Aardbei’, ertoe leiden dat de totale kans aanzienlijk verschoven naar de mannelijke mening. Hoewel er nog steeds een verborgen mannelijke vooroordeel in onze ‘Passionate Peach’ sample is, is het niet zo sterk en dus wordt een groter deel van de vrouwelijke opinie in aanmerking genomen. Dit resulteert in een lagere marginale kans voor de algemene bevolking om deze smaak te verkiezen ondanks dat elk geslacht waarschijnlijker om het te verkiezen wanneer gescheiden binnen de steekproef.
een visualisatie van wat er gaande is:
in dit voorbeeld zijn onze bevindingen vrij onduidelijk, omdat er afwegingen zijn bij het kiezen van een van beide data-standpunten, afhankelijk van wat ons marketingteam wil bereiken. Het overwegen van de groeperingen en het realiseren dat onze bevindingen niet overtuigend zijn, is nuttiger voor ons bedrijf dan het bedenken van een wankele conclusie, en het rapporteren van dit is het juiste om te doen, zodat we terug kunnen gaan naar de tekentafel en een meer diepgaande studie kunnen resamplen en plannen die echt inzicht zal genereren.