a kihívás, hogy megtaláljuk a helyes nézetet az adatokon keresztül
Edward Hugh Simpson, a Bletchley Park statisztikusa és korábbi kriptanalisztje 1951-ben leírta a statisztikai jelenséget, amely nevét egy technikai tanulmányban veszi fel. Simpson paradoxonja kiemeli az egyik kedvenc dolgomat az adatokkal kapcsolatban: a jó intuíció szükségességét a valós világgal kapcsolatban, és azt, hogy a legtöbb adat egy sokkal nagyobb, sokkal összetettebb tartomány véges dimenziós ábrázolása. Az Adattudomány művészete túllát az adatokon — módszereket és eszközöket használ és fejleszt, hogy képet kapjon arról, hogy néz ki ez a rejtett valóság. Simpson paradoxona bemutatja a szkepticizmus fontosságát és az adatok valós világgal kapcsolatos értelmezését, valamint annak veszélyeit, hogy egy összetettebb igazságot túlságosan leegyszerűsítenek azáltal, hogy megpróbálják az egész történetet egyetlen adatszempontból látni.
a paradoxon viszonylag egyszerű, és gyakran okoz zavart és téves információt a statisztikailag nem képzett közönség számára:
Simpson-paradoxon:
olyan trend vagy eredmény, amely akkor jelenik meg, amikor az adatokat csoportokba helyezik, és az adatok összevonásakor megfordul vagy eltűnik.
Simpson paradoxonjának egyik leghíresebb példája az UC Berkley feltételezett nemi elfogultsága. Az 1973-as tanév elején az UC Berkeley graduate school a férfi jelentkezők nagyjából 44% – át, a női jelentkezők 35% – át ismerte el. A történet általában arról szól, hogy az iskolát beperelték nemi megkülönböztetés miatt, bár ez valójában nem igaz. Az iskola azonban félt a pertől, ezért Peter Bickel statisztikussal megnézették az adatokat. Amit talált, meglepő volt: statisztikailag szignifikáns nemi elfogultság volt a nők javára 4 kívül 6 osztályok, a fennmaradó 2-ben pedig nem volt szignifikáns nemi elfogultság. Bickel csapata felfedezte, hogy a nők általában olyan osztályokra jelentkeztek, amelyek összességében a jelentkezők kisebb százalékát fogadták el, és hogy ez a rejtett változó oly módon befolyásolta az elfogadott pályázók százalékának marginális értékeit, hogy megfordítsa az adatok egészében fennálló tendenciát. Lényegében a következtetés megfordult, amikor Bickel csapata megváltoztatta adatszemléletét, hogy figyelembe vegye az iskola osztályokra osztását!
Simpson paradoxona megnehezíti a döntéshozatalt. Lehetőségeink szerint alaposan megvizsgálhatjuk, csoportosíthatjuk és újramintázhatjuk adatainkat, de ha az összes különböző kategóriából több különböző következtetést lehet levonni, akkor árnyalt és nehéz feladat egy csoportosítás kiválasztása, amelyből következtetéseinket a betekintés megszerzése és a stratégiák kidolgozása érdekében levonhatjuk. Tudnunk kell, hogy mit keresünk, és ki kell választanunk a legjobb adatszemléletet, amely igazságosan mutatja be az igazságot. Gondoljunk egy egyszerű példát az üzleti életben.
tegyük fel, hogy az üdítőital-iparban vagyunk, és két új íz közül próbálunk választani. Kóstolhatnánk a közvéleményt a két ízről — tegyük fel, hogy úgy döntünk, hogy minden ízhez két mintavételi standot állítunk fel egy forgalmas területen, és minden standnál 1000 embert kérdezünk meg, hogy élvezik-e az új ízt.
láthatjuk, hogy az emberek 80% – a élvezte a bűnös epret, míg az embereknek csak 75% – a élvezte a szenvedélyes őszibarackot. Tehát a ‘bűnös eper’ valószínűleg az előnyben részesített íz.
tegyük fel, hogy marketing csapatunk más információkat gyűjtött a felmérés során, például az italt mintavevő személy nemét. Mi történik, ha Szex szerint osztjuk fel az adatainkat?
ez arra utal, hogy a férfiak 84,4% – A és a nők 40% – a szerette a bűnös epret, míg a férfiak 85,7% – A és a nők 50% – a szerette a szenvedélyes barackot. Ha megállunk gondolkodni, ez kissé furcsának tűnhet: mintaadataink szerint az emberek általában a bűnös epret részesítik előnyben, de mind a férfiak, mind a nők külön-külön a szenvedélyes őszibarackot részesítik előnyben. Ez egy példa Simpson Paradoxonjára!
intuíciónk azt mondja, hogy azt az ízt is előnyben kell részesíteni, ha egy személy férfi vagy nő, akkor is, ha nemük ismeretlen, és elég furcsa kideríteni, hogy ez nem igaz — ez a paradoxon szíve.
lappangó változók
Simpson-paradoxon akkor merül fel, amikor vannak rejtett változók, amelyek az adatokat több különálló eloszlásra osztják fel. Egy ilyen rejtett változót találóan lappangó változónak neveznek, és gyakran nehéz azonosítani őket. Szerencsére nem ez a helyzet az üdítőital példánkban, és marketingcsapatunknak gyorsan látnia kell, hogy az új ízeket mintavevő személy neme befolyásolja véleményét.
a paradoxon magyarázatának egyik módja a leselkedő változó (nem) és egy kis valószínűségi elmélet figyelembe vétele:
P (tetszett eper) = P (tetszett eper / férfi)P (férfi) + P (tetszett eper / nő)P (nő)
800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)
P (tetszett az őszibarack) = P (tetszett az őszibarack / férfi)P (férfi) + P (tetszett az őszibarack / nő)P (nő)
750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)
a nem marginális valószínűségeire (P (férfi) és P(nő)) úgy gondolhatunk, mint olyan súlyokra, amelyek a bűnös eper esetében a teljes valószínűség jelentős eltolódását okozzák a férfi vélemény felé. Bár a szenvedélyes Barack mintánkban még mindig van egy rejtett férfi elfogultság, ez nem annyira erős, ezért a női vélemény nagyobb hányadát veszik figyelembe. Ez alacsonyabb marginális valószínűséget eredményez az általános lakosság számára, hogy ezt az ízt részesítse előnyben, annak ellenére, hogy mindegyik nem nagyobb valószínűséggel részesíti előnyben, ha a mintán belül elválasztják.
a vizualizáció, hogy mi folyik itt:
ebben a példában eredményeink meglehetősen nem meggyőzőek, mivel kompromisszumok vannak az adat-Nézőpont kiválasztásában attól függően, hogy marketing csapatunk mit akar elérni. Figyelembe véve a csoportosulásokat és felismerve, hogy megállapításaink nem meggyőzőek, hasznosabb a vállalkozásunk számára, mint egy bizonytalan következtetés, és ennek jelentése a helyes dolog, hogy visszatérhessünk a rajztáblához, és újramintázhassunk és megtervezhessünk egy mélyebb tanulmányt, amely valódi betekintést eredményez.