simpsonův Paradox a Interpretace Dat

výzvou najít správný názor prostřednictvím datové

Edward Hugh Simpson, statistik a bývalý dešifrování v Bletchley Parku, popsal statistický jev, že bere jeho jméno v technických novinách v roce 1951. Simpsonův paradox zdůrazňuje jednu z mých oblíbených věcí na datech: potřebu dobré intuice ohledně skutečného světa a toho, jak většina dat je konečnou dimenzionální reprezentací mnohem větší, mnohem složitější domény. Umění vědy o datech vidí mimo metody a nástroje využívající data a vyvíjející se k získání představy o tom, jak tato skrytá realita vypadá. Simpsonův paradox vitríny význam, skepse a interpretace dat s ohledem na skutečný svět, a také nebezpečí zjednodušování složitějších pravdu, že se snaží vidět celý příběh z jednoho údaje-hlediska.

paradox je poměrně jednoduchý a často je příčinou zmatku a dezinformací pro statisticky vyškolené publikum:

Simpsonův Paradox:
trend nebo výsledek, který je přítomen, když jsou data zařazena do skupin, které se obrátí nebo zmizí, když jsou data kombinována.

Jedním z nejznámějších příkladů Simpson je paradoxem je, UC Berkley je podezření gender-bias. Na začátku akademického roku v 1973, UC Berkeley graduate school přijal zhruba 44% jejich mužských uchazečů a 35% jejich ženských žadatelů. Obvykle se říká, že škola byla žalována za diskriminaci na základě pohlaví, i když to ve skutečnosti není pravda. Škola se však obávala žaloby,a tak se na data podívali statistici Peter Bickel. To, co zjistil, bylo překvapivé: došlo ke statisticky významnému zkreslení pohlaví ve prospěch žen 4 mimo 6 oddělení, a ve zbývajících žádné významné zkreslení pohlaví 2. Bickel je tým zjistil, že ženy tendenci vztahovat na oddělení přiznal, že menší procento žadatelů celkově, a že skryté proměnné ovlivněny mezní hodnoty pro procento přijímaných uchazečů takovým způsobem, jak zvrátit trend, který existoval v datech jako celku. V podstatě, závěr se převrátil, když bickelův tým změnil své datové hledisko tak, aby odpovídalo rozdělení školy na oddělení!

vizuální příklad: celkový trend se obrátí, když data jsou seskupeny podle barvy zastoupené kategorie.

Simpsonův paradox může rozhodování ztížit. Můžeme kontrolovat a přeskupit se a převzorkovat našich dat tolik, kolik jsme schopni, ale pokud více, lze vyvodit různé závěry ze všech různých kategorizace, a pak výběrem seskupení čerpat naše závěry z toho, s cílem získat vhled a rozvíjet strategie je detailní a složitý problém. Musíme vědět, co hledáme, a vybrat nejlepší hledisko dat, které poskytuje spravedlivé znázornění pravdy. Přemýšlejme o jednoduchém příkladu v podnikání.

Předpokládejme, že jsme v odvětví nealkoholických nápojů a snažíme se vybrat mezi dvěma novými příchutěmi, které jsme vyrobili. Můžeme vzorek veřejného mínění na dvě příchutě — řekněme, že jsme se rozhodli tak učinit zřízením dvou vzorků stánky pro každou chuť v rušné oblasti a ptát 1000 lidí, na každém stánku v případě, že si na novou chuť.

můžeme vidět, že 80% lidí si užil ‚Hříšné Jahoda‘ vzhledem k tomu, že pouze 75% lidí si užil ‚Vášnivý Peach‘. Takže „Hříšná jahoda“ bude s větší pravděpodobností preferovanou chutí.

Teď, předpokládejme, že náš marketingový tým nasbíral další informace při provádění průzkumu, jako je pohlaví osoby vzorků nápoj. Co se stane, když rozdělíme naše data podle pohlaví?

To naznačuje, že 84.4% mužů a 40% žen rád Hříšné Jahoda‘ vzhledem k tomu, že 85.7% mužů a 50% žen rád Vášnivý Peach‘. Pokud přestaneme přemýšlet, může se to zdát trochu divné: podle našich vzorových údajů, obecně lidé dávají přednost „hříšné jahodě“, ale muži i ženy zvlášť preferují „vášnivou broskev“. Toto je příklad Simpsonova paradoxu!
Naše intuice nám řekne, že chuť, že je výhodné oba, když člověk je muž nebo žena by měla také být populární, když jejich pohlaví je neznámé, a to je docela zvláštní zjistit, že to není pravda — to je srdce paradox.

Číhající proměnné

simpsonův paradox vzniká, když jsou tu skryté proměnné, že rozdělení dat do více samostatných rozvodů. Taková skrytá proměnná je vhodně označována jako číhající proměnná, a často je obtížné je identifikovat. Naštěstí, toto není případ v naší nealkoholický nápoj příklad, a náš marketingový tým by měly rychle být schopen vidět, že pohlaví osoby vzorkování nových chutí, má vliv na jejich názor.

jedním ze způsobů, jak lze paradox vysvětlit, je zvážení číhající proměnné (pohlaví) a trochu teorie pravděpodobnosti:

P(Rád Jahody) = P(Rád Jahody | Man)P(Muž) + P(Rád Jahody | Žena), P(Žena)

800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)

P(Rád Broskev) = P(Rád Broskev | Man)P(Muž) + P(Rád Broskev | Žena), P(Žena)

750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)

můžeme přemýšlet o marginální pravděpodobnosti pohlaví (P(Muž) a P(Žena)) jako závaží, které, v případě Hříšných Jahody‘, protože celková pravděpodobnost, se výrazně posunul směrem k mužskému názoru. I když v našem vzorku „vášnivých broskví“ stále existuje skrytá mužská zaujatost, není tak silná, a proto se bere v úvahu větší část ženského názoru. To má za následek nižší marginální pravděpodobnost, že obecná populace preferuje tuto chuť, přestože každý sex je pravděpodobnější, že ji upřednostní, když je oddělen ve vzorku.

vizualizace toho, co se děje:

Každý barevný kruh představuje buď muži, nebo ženy, které do vzorku každá chuť, poloha středu každého kruhu odpovídá, že skupina je pravděpodobnost představ chuť. Všimněte si, že obě skupiny leží dále doprava (mají vyšší pravděpodobnost), že se jim líbí broskev. Jak kruhy rostou (tj. proporce vzorků se mění), můžeme vidět, jak se mění mezní pravděpodobnost, že se chuť líbí. Okrajové distribuce se posouvají a přepínají, když se vzorky váží vzhledem k číhající proměnné (pohlaví).

v tomto příkladu jsou naše zjištění docela neprůkazná, protože existují kompromisy při výběru obou hledisek dat v závislosti na tom, čeho chce náš marketingový tým dosáhnout. Vzhledem k seskupení a uvědomili si, že naše závěry jsou neprůkazné, je více užitečné pro naše podnikání, než přijít s nestabilní závěr, a podávání zpráv, to je správná věc, kterou udělat, tak, že můžeme jít zpět k rýsovacím prkně a převzorkování a plán na více in-hloubkové studie, které budou vytvářet reálný pohled.



+