Die Herausforderung, die richtige Ansicht durch Daten zu finden
Edward Hugh Simpson, ein Statistiker und ehemaliger Kryptoanalytiker bei Bletchley Park, beschrieb das statistische Phänomen, das seinen Namen trägt, in einem technischen Artikel in 1951. Simpsons Paradoxon hebt eines meiner Lieblingssachen über Daten hervor: die Notwendigkeit einer guten Intuition in Bezug auf die reale Welt und wie die meisten Daten eine endlichdimensionale Darstellung einer viel größeren, viel komplexeren Domäne sind. Die Kunst der Datenwissenschaft besteht darin, über die Daten hinaus zu sehen — Methoden und Werkzeuge zu verwenden und zu entwickeln, um eine Vorstellung davon zu bekommen, wie diese verborgene Realität aussieht. Simpsons Paradoxon zeigt die Bedeutung von Skepsis und Interpretation von Daten in Bezug auf die reale Welt, und auch die Gefahren der Vereinfachung einer komplexeren Wahrheit, indem versucht wird, die ganze Geschichte aus einer einzigen Datensicht zu sehen.
Das Paradoxon ist relativ einfach zu erklären und verursacht häufig Verwirrung und Fehlinformationen für nicht statistisch geschulte Zielgruppen:
Simpsons Paradoxon:
Ein Trend oder ein Ergebnis, das vorhanden ist, wenn Daten in Gruppen eingeteilt werden, die umgekehrt oder verschwindet, wenn die Daten kombiniert werden.
Eines der bekanntesten Beispiele für Simpsons Paradoxon ist UC Berkleys vermutete geschlechtsspezifische Voreingenommenheit. Zu Beginn des akademischen Jahres 1973 hatte die Graduiertenschule der UC Berkeley etwa 44% ihrer männlichen Bewerber und 35% ihrer weiblichen Bewerber zugelassen. Die Geschichte geht in der Regel, dass die Schule wegen geschlechtsspezifischer Diskriminierung verklagt wurde, obwohl dies nicht wirklich wahr ist. Die Schule befürchtete jedoch eine Klage, und so ließ sie den Statistiker Peter Bickel die Daten untersuchen. Was er fand, war überraschend: Es gab eine statistisch signifikante geschlechtsspezifische Verzerrung zugunsten von Frauen für 4 aus dem 6 Abteilungen, und keine signifikante geschlechtsspezifische Verzerrung in den restlichen 2. Bickels Team stellte fest, dass sich Frauen eher in Abteilungen bewarben, in denen insgesamt ein geringerer Prozentsatz von Bewerbern zugelassen wurde, und dass diese versteckte Variable die Grenzwerte für den Prozentsatz der akzeptierten Bewerber so beeinflusste, dass der Trend umgekehrt wurde in den Daten als Ganzes. Im Wesentlichen kippte die Schlussfolgerung, als Bickels Team seinen Datenstandpunkt änderte, um die Aufteilung der Schule in Abteilungen zu berücksichtigen!
Simpsons Paradoxon kann die Entscheidungsfindung erschweren. Wir können unsere Daten hinterfragen, neu gruppieren und neu abtasten, so viel wir können, aber wenn aus all den verschiedenen Kategorisierungen mehrere verschiedene Schlussfolgerungen gezogen werden können, dann ist die Auswahl einer Gruppierung, aus der wir unsere Schlussfolgerungen ziehen können, um Einblicke zu gewinnen und Strategien zu entwickeln, ein nuanciertes und schwieriges Problem. Wir müssen wissen, wonach wir suchen, und die besten Daten auswählen, um eine faire Darstellung der Wahrheit zu erhalten. Denken wir an ein einfaches Beispiel in der Wirtschaft.
Angenommen, wir sind in der Erfrischungsgetränkeindustrie und versuchen, zwischen zwei neuen Geschmacksrichtungen zu wählen, die wir hergestellt haben. Wir könnten die öffentliche Meinung zu den beiden Geschmacksrichtungen testen — nehmen wir an, wir entscheiden uns dafür, indem wir zwei Probierstände für jeden Geschmack in einer belebten Gegend einrichten und 1000 Leute an jedem Stand fragen, ob sie den neuen Geschmack genießen.
Wir können sehen, dass 80% der Menschen ‚Sündige Erdbeere‘ genossen, während nur 75% der Menschen ‚leidenschaftlichen Pfirsich‘ genossen. Daher ist ‚Sinful Strawberry‘ eher der bevorzugte Geschmack.
Angenommen, unser Marketingteam hat während der Durchführung der Umfrage einige andere Informationen gesammelt, z. B. das Geschlecht der Person, die das Getränk probiert. Was passiert, wenn wir unsere Daten nach Geschlecht aufteilen?
Dies deutet darauf hin, dass 84,4% der Männer und 40% der Frauen ‚Sündige Erdbeere‘ mochten, während 85,7% der Männer und 50% der Frauen ‚Leidenschaftlichen Pfirsich‘ mochten. Wenn wir aufhören zu denken, könnte dies ein wenig seltsam erscheinen: nach unseren Beispieldaten bevorzugen die Menschen im Allgemeinen ‚Sündige Erdbeere‘, aber sowohl Männer als auch Frauen bevorzugen getrennt ‚leidenschaftlichen Pfirsich‘. Dies ist ein Beispiel für Simpsons Paradoxon!
Unsere Intuition sagt uns, dass der Geschmack, der bevorzugt wird, wenn eine Person männlich oder weiblich ist, auch bevorzugt werden sollte, wenn ihr Geschlecht unbekannt ist, und es ist ziemlich seltsam herauszufinden, dass dies nicht wahr ist — das ist der Kern des Paradoxons.
Lauernde Variablen
Simpsons Paradoxon entsteht, wenn es versteckte Variablen gibt, die Daten in mehrere separate Verteilungen aufteilen. Eine solche versteckte Variable wird treffend als lauernde Variable bezeichnet, und sie können oft schwer zu identifizieren sein. Glücklicherweise ist dies in unserem Beispiel für Erfrischungsgetränke nicht der Fall, und unser Marketingteam sollte schnell erkennen können, dass das Geschlecht der Person, die die neuen Geschmacksrichtungen probiert, ihre Meinung beeinflusst.
Eine Möglichkeit, das Paradoxon zu erklären, besteht darin, die lauernde Variable (Geschlecht) und ein wenig Wahrscheinlichkeitstheorie zu berücksichtigen:
P(Mochte Erdbeere) = P(Mochte Erdbeere / Mann)P(Mann) + P(Mochte Erdbeere / Frau)P(Frau)
800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)
P (Mochte Pfirsich) = P (Mochte Pfirsich / Mann) P (Mann) + P (Mochte Pfirsich / Frau) P (Frau)
750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)
Wir können uns die Randwahrscheinlichkeiten des Geschlechts (P (Mann) und P (Frau)) als Gewichte vorstellen, die im Fall von ’sündigem Sex‘ dazu führen, dass sich die Gesamtwahrscheinlichkeit signifikant verschiebt zur männlichen Meinung. Während es in unserer ‚Passionate Peach‘ -Stichprobe immer noch eine versteckte männliche Voreingenommenheit gibt, ist sie nicht ganz so stark und somit wird ein größerer Anteil der weiblichen Meinung berücksichtigt. Dies führt zu einer geringeren Grenzwahrscheinlichkeit für die allgemeine Bevölkerung, diesen Geschmack zu bevorzugen, obwohl jedes Geschlecht ihn eher bevorzugt, wenn es innerhalb der Stichprobe getrennt wird.
Eine Visualisierung des Geschehens:
In diesem Beispiel sind unsere Ergebnisse ziemlich nicht schlüssig, da es Kompromisse bei der Auswahl eines Datengesichtspunkts gibt, je nachdem, was unser Marketingteam erreichen möchte. In Anbetracht der Gruppierungen und der Erkenntnis, dass unsere Ergebnisse nicht schlüssig sind, ist es für unser Geschäft nützlicher, als zu einer instabilen Schlussfolgerung zu kommen, und dies zu melden, ist das Richtige, damit wir zum Zeichenbrett zurückkehren und eine tiefergehende Studie planen können, die echte Erkenntnisse liefert.