Simpsonin paradoksi ja datan tulkitseminen

haasteena löytää oikea näkemys tietojen avulla

Edward Hugh Simpson, tilastotieteilijä ja entinen kryptoanalyytikko Bletchley Parkissa, kuvasi hänen nimensä saaneen tilastollisen ilmiön teknisessä tutkielmassa vuonna 1951. Simpsonin paradoksi korostaa yhtä suosikkiasioitani datasta: tarvetta hyvälle intuitiolle koskien reaalimaailmaa ja sitä, miten suurin osa datasta on äärellinen dimensionaalinen esitys paljon suuremmasta, paljon monimutkaisemmasta verkkotunnuksesta. Datatieteen taiteena on nähdä datan käytön ja kehittämisen ulkopuolelle menetelmät ja työkalut, joilla saadaan käsitys siitä, miltä tuo piilotettu todellisuus näyttää. Simpsonin paradoksi osoittaa skeptisyyden ja datan tulkinnan merkityksen suhteessa reaalimaailmaan, ja myös vaarat, jotka liittyvät monimutkaisemman totuuden liialliseen yksinkertaistamiseen yrittämällä nähdä koko tarina yhdestä datanäkökulmasta.

paradoksi on suhteellisen yksinkertainen todeta, ja se aiheuttaa usein sekaannusta ja väärää tietoa ei-tilastollisesti koulutetuille yleisöille:

Simpsonin paradoksi:
suuntaus tai tulos, joka on läsnä, kun tiedot ryhmitellään, joka kääntyy tai katoaa, kun tiedot yhdistetään.

yksi kuuluisimmista esimerkeistä Simpsonin paradoksista on UC Berkleyn epäilty sukupuolivinouma. Lukuvuoden alussa vuonna 1973, UC Berkeley ’ s graduate school oli hyväksynyt noin 44% miespuolisista hakijoista ja 35% naispuolisista hakijoista. Yleensä kerrotaan, että koulu haastettiin oikeuteen sukupuolisyrjinnästä, vaikka tämä ei todellisuudessa pidä paikkaansa. Koulu ei kuitenkaan pelkää oikeusjuttu, ja niin he olivat tilastotieteilijä Peter Bickel tarkastella tietoja. Mitä hän löysi oli yllättävää: oli tilastollisesti merkitsevä sukupuolivinouma naisten hyväksi 4 ulos 6 osastot, eikä merkittävää sukupuolivinoumaa loput 2. Bickelin ryhmä havaitsi, että naiset pyrkivät hakeutumaan osastoille, jotka hyväksyivät vähemmän hakijoita, ja että tämä piilomuuttuja vaikutti hyväksyttyjen hakijoiden prosenttiosuuden marginaaliarvoihin siten, että se käänsi koko aineistossa vallinneen suuntauksen. Pohjimmiltaan, johtopäätös kääntyi, kun Bickelin joukkue muutti tiedot-näkökulma huomioon koulun on jaettu osastoihin!

visuaalinen esimerkki: yleinen suuntaus kääntyy päinvastaiseksi, kun tiedot ryhmitellään jonkin väri-edustetun luokan mukaan.

Simpsonin paradoksi voi tehdä päätöksenteosta vaikeaa. Voimme tutkia ja koota uudelleen ja ottaa uudelleen tietoja niin paljon kuin pystymme, mutta jos kaikista eri luokitteluista voidaan tehdä useita erilaisia päätelmiä, ryhmittelyn valitseminen, josta voimme tehdä päätelmämme, jotta saamme tietoa ja kehitämme strategioita, on vivahteikas ja vaikea ongelma. Meidän on tiedettävä, mitä etsimme, ja valittava paras data-näkökulma, joka antaa oikeudenmukaisen kuvan totuudesta. Mietitäänpä yksinkertaista esimerkkiä liike – elämässä.

Oletetaan, että olemme virvoitusjuomateollisuudessa ja yritämme valita kahden tuottamamme uuden maun väliltä. Voisimme maistella yleistä mielipidettä näistä kahdesta mausta-oletetaan, että teemme niin perustamalla kaksi näytteenottokojua kutakin makua varten vilkkaalle alueelle ja kysymällä 1000 ihmiseltä jokaisesta kojusta, nauttivatko he uudesta mausta.

voimme nähdä, että 80 prosenttia ihmisistä nautti ”syntisestä mansikasta”, kun taas vain 75 prosenttia ihmisistä nautti ”intohimoisesta persikasta”. ”Syntinen mansikka” on siis todennäköisemmin mieluinen maku.

oletetaan nyt, että markkinointitiimimme keräsi kyselyä tehdessään jotain muuta tietoa, kuten juomaa maistavan henkilön sukupuolen. Mitä tapahtuu, jos jaamme tietomme sukupuolen mukaan?

tämä viittaa siihen, että 84,4 prosenttia miehistä ja 40 prosenttia naisista piti ”syntisestä mansikasta”, kun taas 85,7 prosenttia miehistä ja 50 prosenttia naisista piti ”intohimoisesta persikasta”. Jos pysähdymme ajattelemaan, tämä voi tuntua hieman oudolta.: otostietojemme mukaan yleensä ihmiset suosivat ”syntistä mansikkaa”, mutta sekä miehet että naiset erikseen suosivat ”intohimoista persikkaa”. Tämä on esimerkki Simpsonin paradoksista!
intuitiomme kertoo, että makua, jota suositaan sekä silloin, kun henkilö on mies tai nainen, tulisi suosia myös silloin, kun hänen sukupuolensa on tuntematon, ja on aika outoa huomata, että tämä ei pidä paikkaansa — tämä on paradoksin ydin.

piilevät muuttujat

Simpsonin paradoksi syntyy, kun on piilomuuttujia, jotka jakavat datan useisiin erillisiin jakaumiin. Tällaista piilomuuttujaa kutsutaan osuvasti väijyväksi muuttujaksi, ja niitä voi usein olla vaikea tunnistaa. Virvoitusjuomaesimerkissämme näin ei onneksi ole, ja markkinointitiimimme pitäisi nopeasti huomata, että uusia makuja maistelevan henkilön sukupuoli vaikuttaa heidän mielipiteeseensä.

paradoksi voidaan selittää muun muassa tarkastelemalla väijyvää muuttujaa (sukupuoli) ja hieman todennäköisyysteoriaa:

P(pidetty mansikka) = P(pidetty mansikka | mies)P (mies) + P (pidetty mansikka / nainen) P (nainen)

800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)

P (tykätty persikasta) = P (tykätty persikasta / mies) P(mies) + P (tykätty persikasta / nainen)P (nainen)

750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)

voimme ajatella sukupuolen marginaalisia todennäköisyyksiä (P (mies) ja P(nainen)) painoina, jotka ”syntisen mansikan” tapauksessa aiheuttavat kokonaistodennäköisyyden merkittävän siirtymisen kohti miesten mielipidettä. Vaikka ”intohimoisessa Persikkanäytteessämme” on edelleen piilevää miesvihamielisyyttä, se ei ole aivan yhtä vahva, ja siksi naisten mielipide otetaan aiempaa enemmän huomioon. Tämä johtaa siihen, että koko väestöllä on pienempi marginaalinen todennäköisyys suosia tätä makua, vaikka kumpikin sukupuoli suosisi sitä todennäköisemmin, kun se erotetaan otoksessa.

visualisointi siitä, mitä tapahtuu:

kukin värillinen ympyrä edustaa joko niitä miehiä tai naisia, jotka ottivat näytteitä kustakin mausta, ja kunkin ympyrän keskipisteen sijainti vastaa kyseisen ryhmän todennäköisyyttä pitää mausta. Huomaa, että molemmat ryhmät ovat kauempana oikealla (on suurempi todennäköisyys) pitää persikka. Kun ympyrät kasvavat (eli otossuhteet muuttuvat), voimme nähdä, miten marginaalinen todennäköisyys maun pitämiselle muuttuu. Marginaalijakauma muuttuu ja vaihtuu, kun otokset painotetaan suhteessa vaanivaan muuttujaan (sukupuoli).

tässä esimerkissä tuloksemme ovat melko epäselviä, koska on olemassa tradeoffs valita joko data-näkökulma riippuen siitä, mitä markkinointitiimimme haluaa saavuttaa. Ottaen huomioon ryhmittymät ja ymmärtää, että meidän havainnot ovat ratkaisemattomia on hyödyllisempää liiketoimintamme kuin keksiä epävakaa johtopäätös, ja raportointi tämä on oikea asia tehdä niin, että voimme palata piirustuspöydälle ja resample ja suunnitella syvällisempää tutkimusta, joka tuottaa todellista tietoa.