provocarea de a găsi vizualizarea corectă prin date
Edward Hugh Simpson, statistician și fost criptanalist la Bletchley Park, a descris fenomenul statistic care își ia numele într-o lucrare tehnică din 1951. Paradoxul lui Simpson evidențiază unul dintre lucrurile mele preferate despre date: nevoia unei intuiții bune cu privire la lumea reală și modul în care majoritatea datelor sunt o reprezentare dimensională finită a unui domeniu mult mai mare, mult mai complex. Arta științei datelor vede dincolo de date — folosind și dezvoltând metode și instrumente pentru a obține o idee despre cum arată acea realitate ascunsă. Paradoxul lui Simpson arată importanța scepticismului și a interpretării datelor cu privire la lumea reală și, de asemenea, pericolele simplificării excesive a unui adevăr mai complex, încercând să vedem întreaga poveste dintr-un singur punct de vedere al datelor.
paradoxul este relativ simplu de afirmat și este adesea o cauză de confuzie și dezinformare pentru publicul neinstruit statistic:
Paradoxul lui Simpson:
o tendință sau un rezultat care este prezent atunci când datele sunt puse în grupuri care inversează sau dispare atunci când datele sunt combinate.
unul dintre cele mai faimoase exemple ale paradoxului lui Simpson este presupusa părtinire de gen a lui UC Berkley. La începutul anului universitar în 1973, UC Berkeley ‘ s graduate school a admis aproximativ 44% dintre solicitanții lor de sex masculin și 35% dintre solicitanții lor de sex feminin. Povestea spune de obicei că școala a fost dată în judecată pentru discriminare de gen, deși acest lucru nu este adevărat. Școala s-a temut totuși de un proces, așa că l-au pus pe statisticianul Peter Bickel să se uite la date. Ceea ce a descoperit a fost surprinzător: a existat o părtinire semnificativă statistic de gen în favoarea femeilor pentru 4 din cele 6 departamente și nicio părtinire semnificativă de gen în restul de 2. Echipa Bickel a descoperit că femeile au avut tendința de a aplica departamentelor care au admis un procent mai mic de solicitanți în general și că această variabilă ascunsă a afectat valorile marginale pentru procentul de solicitanți acceptați în așa fel încât să inverseze tendința care exista în date în ansamblu. În esență, concluzia a fost răsturnată când echipa lui Bickel și-a schimbat punctul de vedere al datelor pentru a ține cont de faptul că școala este împărțită în departamente!
paradoxul lui Simpson poate face dificilă luarea deciziilor. Putem examina și regrupa și reeșantiona datele noastre cât de mult putem, dar dacă se pot trage mai multe concluzii diferite din toate categoriile diferite, atunci alegerea unei grupări din care să tragem concluziile noastre pentru a obține o perspectivă și a dezvolta strategii este o problemă nuanțată și dificilă. Trebuie să știm ce căutăm și să alegem cel mai bun punct de vedere al datelor, oferind o reprezentare corectă a adevărului. Să ne gândim la un exemplu simplu în afaceri.
să presupunem că suntem în industria băuturilor răcoritoare și încercăm să alegem între două arome noi pe care le-am produs. Am putea gusta opinia publică cu privire la cele două arome — să presupunem că alegem să facem acest lucru prin înființarea a două standuri de eșantionare pentru fiecare aromă într-o zonă aglomerată și întrebând 1000 de persoane la fiecare stand dacă se bucură de noua aromă.
putem vedea că 80% dintre oameni s-au bucurat de ‘căpșuni păcătoase’, în timp ce doar 75% dintre oameni s-au bucurat de ‘piersică pasională’. Deci, căpșunul păcătos este mai probabil să fie aroma preferată.
acum, să presupunem că echipa noastră de marketing a colectat alte informații în timpul efectuării sondajului, cum ar fi sexul persoanei care prelevează băutura. Ce se întâmplă dacă ne împărțim datele în funcție de sex?
acest lucru sugerează că 84,4% dintre bărbați și 40% dintre femei le-au plăcut căpșunile păcătoase, în timp ce 85,7% dintre bărbați și 50% dintre femei le-au plăcut piersicile pasionale. Dacă ne oprim să ne gândim, acest lucru ar putea părea puțin ciudat: conform datelor noastre de probă, în general, oamenii preferă căpșunile păcătoase, dar atât bărbații, cât și femeile preferă separat piersica pasională. Acesta este un exemplu al paradoxului lui Simpson!
intuiția noastră ne spune că aroma preferată atât atunci când o persoană este bărbat, cât și femeie ar trebui să fie preferată și atunci când sexul lor este necunoscut și este destul de ciudat să aflăm că acest lucru nu este adevărat — aceasta este inima paradoxului.
variabile ascunse
paradoxul lui Simpson apare atunci când există variabile ascunse care împart datele în mai multe distribuții separate. O astfel de variabilă ascunsă este denumită pe bună dreptate o variabilă ascunsă și poate fi adesea dificil de identificat. Din fericire, acest lucru nu este cazul în exemplul nostru de băuturi răcoritoare, iar echipa noastră de marketing ar trebui să poată vedea rapid că sexul persoanei care prelevează noile arome îi afectează opinia.
un mod în care paradoxul poate fi explicat este luând în considerare variabila ascunsă (sex) și un pic de teorie a probabilității:
P ( căpșuni plăcut) = P (căpșuni plăcut / om) P (om) + P (căpșuni plăcut / femeie)P (femeie)
800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)
P ( piersică plăcută) = P (piersică plăcută | bărbat)P (bărbat) + P (piersică plăcută | femeie)P (femeie)
750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)
ne putem gândi la probabilitățile marginale ale sexului (P (bărbat) și P (femeie)) ca greutăți care, în cazul căpșunii păcătoase, determină schimbarea semnificativă a probabilității totale spre opinia masculină. Deși există încă o prejudecată mascul ascunsă în eșantionul nostru de piersici pasionați, aceasta nu este la fel de puternică și, prin urmare, se ia în considerare o proporție mai mare a opiniei feminine. Acest lucru are ca rezultat o probabilitate marginală mai mică pentru populația generală de a prefera această aromă, în ciuda faptului că fiecare sex este mai probabil să o prefere atunci când este separat în eșantion.
o vizualizare a ceea ce se întâmplă:
în acest exemplu, constatările noastre sunt destul de neconcludente, deoarece există compromisuri pentru a alege fie punctul de vedere al datelor, în funcție de ceea ce echipa noastră de marketing dorește să realizeze. Luând în considerare grupările și realizând că constatările noastre sunt neconcludente este mai util pentru afacerea noastră decât să venim cu o concluzie instabilă, iar raportarea acestui lucru este lucrul corect de făcut, astfel încât să ne putem întoarce la planșa de desen și să reeșantionăm și să planificăm un studiu mai aprofundat care va genera o perspectivă reală.