paradoks Simpsona i interpretacja danych

wyzwanie znalezienia właściwego widoku za pomocą danych

Edward Hugh Simpson, statystyk i były kryptoanalityk w Bletchley Park, opisał zjawisko statystyczne, które bierze swoje nazwisko w artykule technicznym w 1951 roku. Paradoks Simpsona podkreśla jedną z moich ulubionych rzeczy na temat danych: potrzeba dobrej intuicji w odniesieniu do świata rzeczywistego i jak większość danych jest skończoną wymiarową reprezentacją znacznie większej, znacznie bardziej złożonej domeny. Sztuka Nauki o danych to patrzenie poza dane-używanie i rozwijanie metod i narzędzi, aby uzyskać wyobrażenie o tym, jak wygląda ta ukryta rzeczywistość. Paradoks Simpsona pokazuje znaczenie sceptycyzmu i interpretacji danych w odniesieniu do świata rzeczywistego, a także niebezpieczeństwa upraszczania bardziej złożonej prawdy, próbując zobaczyć całą historię z jednego punktu widzenia danych.

paradoks jest stosunkowo prosty do stwierdzenia i często jest przyczyną dezorientacji i dezinformacji dla nie-statystycznie wyszkolonych odbiorców:

paradoks Simpsona:
trend lub wynik, który występuje, gdy dane są umieszczane w grupach, które odwracają się lub znikają, gdy dane są łączone.

jednym z najbardziej znanych przykładów paradoksu Simpsona jest podejrzenie płci UC Berkley. Na początku roku akademickiego w 1973, UC Berkeley graduate school przyznał około 44% ich męskich wnioskodawców i 35% ich żeńskich wnioskodawców. Zazwyczaj mówi się, że szkoła została pozwana za dyskryminację ze względu na płeć, chociaż tak naprawdę nie jest to prawda. Szkoła obawiała się jednak pozwu, więc kazali statystykowi Peterowi Bickelowi przyjrzeć się danym. To, co odkrył, było zaskakujące: było statystycznie istotne uprzedzenie płciowe na korzyść kobiet w 4 z 6 departamentów, a brak znaczących uprzedzeń płciowych w pozostałych 2. Zespół bickela odkrył, że kobiety mają tendencję do ubiegania się o Departamenty, które przyjęły mniejszy odsetek wnioskodawców ogółem, i że ta ukryta zmienna wpłynęła na wartości marginalne dla procentu zaakceptowanych wnioskodawców w taki sposób, aby odwrócić trend, który istniał w danych jako całości. Zasadniczo wniosek odwrócił się, gdy zespół Bickela zmienił swoje dane-punkt widzenia, aby uwzględnić podział szkoły na wydziały!

przykład wizualny: ogólny trend odwraca się, gdy dane są pogrupowane według kategorii reprezentowanej kolorem.

paradoks Simpsona może utrudniać podejmowanie decyzji. Możemy analizować, przegrupowywać i ponownie próbkować nasze dane na tyle, na ile jesteśmy w stanie, ale jeśli można wyciągnąć wiele różnych wniosków z różnych kategorii, Wybór grupy, z której wyciągniemy nasze wnioski, aby uzyskać wgląd i opracować strategie, jest trudnym i niuansowym problemem. Musimy wiedzieć, czego szukamy i wybrać najlepszy punkt widzenia danych, dający sprawiedliwe przedstawienie prawdy. Pomyślmy o prostym przykładzie w biznesie.

Załóżmy, że jesteśmy w branży napojów bezalkoholowych i staramy się wybierać pomiędzy dwoma nowymi smakami, które wyprodukowaliśmy. Moglibyśmy spróbować opinii publicznej na temat dwóch smaków-powiedzmy, że zdecydowaliśmy się to zrobić, ustawiając dwa stanowiska próbkowania dla każdego smaku w ruchliwej okolicy i pytając 1000 osób na każdym stoisku, czy lubią nowy smak.

widzimy, że 80% osób cieszyło się „grzeszną truskawką”, podczas gdy tylko 75% osób cieszyło się „namiętną brzoskwinią”. Tak więc „grzeszna truskawka” jest bardziej prawdopodobna jako preferowany smak.

Załóżmy, że nasz zespół marketingowy zebrał inne informacje podczas przeprowadzania ankiety, takie jak płeć osoby próbującej drinka. Co się stanie, jeśli podzielimy dane według płci?

sugeruje to, że 84,4% mężczyzn i 40% kobiet lubiło „grzeszną truskawkę”, podczas gdy 85,7% mężczyzn i 50% kobiet lubiło „namiętną brzoskwinię”. Jeśli przestaniemy myśleć, to może wydawać się trochę dziwne.: według naszych przykładowych danych, generalnie ludzie wolą „grzeszną truskawkę”, ale zarówno mężczyźni, jak i kobiety osobno wolą „namiętną brzoskwinię”. To jest przykład paradoksu Simpsona!
nasza intuicja podpowiada nam, że smak, który jest preferowany zarówno wtedy, gdy osoba jest mężczyzną, jak i kobietą, powinien być preferowany również wtedy, gdy ich płeć jest nieznana, i dość dziwne jest odkrycie, że to nieprawda — to jest sedno paradoksu.

czyhające zmienne

paradoks Simpsona powstaje, gdy istnieją ukryte zmienne, które dzielą dane na wiele oddzielnych dystrybucji. Taka ukryta zmienna jest trafnie określana jako zmienna czająca się i często może być trudna do zidentyfikowania. Na szczęście tak nie jest w naszym przykładzie napojów bezalkoholowych, a nasz zespół marketingowy powinien szybko zobaczyć, że płeć osoby próbującej nowych smaków wpływa na jej opinię.

jednym ze sposobów wyjaśnienia paradoksu jest rozważenie zmienności (płci) i trochę teorii prawdopodobieństwa:

P (Liked Strawberry) = P (Liked Strawberry / Man) P (Man) + P (Liked Strawberry / Woman) P(Woman)

800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)

P (lubiana brzoskwinia) = P (lubiana brzoskwinia / Mężczyzna) P (Mężczyzna) + P (lubiana brzoskwinia / Kobieta) P(Kobieta)

750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)

możemy myśleć o marginalnym prawdopodobieństwie płci (P (Mężczyzna) i p(Kobieta)) jako o wadze, która w przypadku „grzesznej truskawki” powoduje znaczne przesunięcie całkowitego prawdopodobieństwa w stronę męskiej opinii. Chociaż w naszej próbce „namiętnej brzoskwini” nadal istnieje ukryty męski uprzedzenie, nie jest ono tak silne, a zatem bierze się pod uwagę większą część opinii kobiet. Skutkuje to niższym marginalnym prawdopodobieństwem dla ogólnej populacji preferowania tego smaku, pomimo że każda płeć jest bardziej skłonna preferować go, gdy jest oddzielona w próbce.

wizualizacja tego, co się dzieje:

każdy kolorowy okrąg reprezentuje mężczyzn lub kobiety, którzy próbkowali każdego smaku, położenie środka każdego okręgu odpowiada prawdopodobieństwu tej grupy Polubienia smaku. Zauważ, że obie grupy leżą dalej po prawej stronie (mają większe prawdopodobieństwo) Polubienia Peach. W miarę wzrostu kręgów (tj. zmiany proporcji próbki) możemy zobaczyć, jak zmienia się marginalne prawdopodobieństwo Polubienia smaku. Marginalne rozkłady przesuwają się i zmieniają, gdy próbki stają się ważone w odniesieniu do zmiennej przyczajonej (płeć).

w tym przykładzie nasze ustalenia są dość niejednoznaczne, ponieważ istnieją kompromisy w wyborze dowolnego punktu widzenia danych w zależności od tego, co nasz zespół marketingowy chce osiągnąć. Rozważenie grup i uświadomienie sobie, że nasze ustalenia są niejednoznaczne, jest bardziej użyteczne dla naszej firmy niż wymyślanie niepewnych wniosków, a zgłoszenie tego jest właściwą rzeczą, abyśmy mogli wrócić do deski kreślarskiej i ponownie przeanalizować i zaplanować bardziej dogłębne badanie, które wygeneruje prawdziwy wgląd.