심슨의 역설과 데이터 해석

데이터를 통해 올바른 관점을 찾는 도전

통계학자이자 블레 츨리 파크의 전 암호 분석가 인 에드워드 휴 심슨은 1951 년 기술 논문에서 그의 이름을 딴 통계 현상을 설명했다. 심슨의 역설은 데이터에 대한 나의 마음에 드는 것들 중 하나를 강조:현실 세계에 대한 좋은 직관의 필요성과 방법 대부분의 데이터는 훨씬 더 큰,훨씬 더 복잡한 도메인의 유한 차원 표현이다. 데이터 과학의 기술은 데이터를 넘어서서 그 숨겨진 현실이 어떻게 생겼는지에 대한 아이디어를 얻기 위해 방법과 도구를 사용하고 개발하는 것입니다. 심슨의 역설은 현실 세계와 관련하여 회의론과 데이터 해석의 중요성을 보여 주며,단일 데이터 관점에서 전체 이야기를 보려고 노력함으로써 더 복잡한 진실을 지나치게 단순화하는 위험을 보여줍니다.

역설은 비교적 간단하며 통계적으로 훈련받지 않은 청중에게 혼란과 잘못된 정보의 원인이되는 경우가 많습니다:

심슨의 역설:
데이터가 결합될 때 반전되거나 사라지는 데이터를 그룹으로 넣을 때 나타나는 추세 또는 결과입니다.

심슨의 역설의 가장 유명한 예 중 하나는 버클리의 의심되는 성별 편견입니다. 1973 년 학년 초에 버클리 대학원은 남성 지원자의 약 44%와 여성 지원자의 35%를 입학 시켰습니다. 이야기는 일반적으로 학교가 성 차별에 대한 소송을 제기 한 것을 간다,이것은 실제로 사실이 아니지만. 학교는 그러나 소송을 두려워했고,그래서 그들은 통계 피터 비켈 데이터를 살펴했다. 그가 발견 한 것은 놀라운 일이었습니다:6 개 부서 중 4 개 부서에서 여성에게 유리하게 통계적으로 유의 한 성별 편견이 있었고 나머지 2 개 부서에서는 유의 한 성별 편견이 없었습니다. 비켈의 팀은 여성이 전체 지원자의 작은 비율을 인정 부서에 적용하는 경향이 있음을 발견,이 숨겨진 변수는 전체 데이터에 존재하는 추세를 반전하는 방식으로 허용 된 지원자의 비율에 대한 한계 값에 영향을. 본질적으로,비켈의 팀이 데이터 관점을 변경하여 학교가 부서로 나뉘어 졌을 때 결론이 뒤집혔습니다!

시각적 예:데이터가 일부 색상으로 표시된 범주별로 그룹화되면 전반적인 추세가 반전됩니다.

심슨의 역설은 의사 결정을 어렵게 만들 수 있습니다. 우리는 우리가 할 수있는만큼 우리의 데이터를 면밀히 조사하고 재편성하고 재 샘플링 할 수 있지만,모든 다른 분류에서 여러 가지 결론을 도출 할 수 있다면 통찰력을 얻고 전략을 개발하기 위해 결론을 도출 할 그룹을 선택하는 것은 미묘하고 어려운 문제입니다. 우리는 우리가 찾고있는 것을 알고,진리의 공정한 표현을 제공하는 최고의 데이터 관점을 선택해야합니다. 사업에서 간단한 예를 생각해 봅시다.

우리가 청량 음료 산업에 종사하고 있으며 우리가 생산 한 두 가지 새로운 맛 중에서 선택하려고한다고 가정 해보십시오. 우리는 두 가지 맛에 대한 여론을 샘플링 할 수—의 우리가 바쁜 지역에서 각각의 맛에 대한 두 개의 샘플링 포장 마차를 설정하고 그들이 새로운 맛을 즐길 경우 각 마구간에 1000 명을 요청하여 그렇게하도록 선택한다고 가정 해 봅시다.

우리는 80%의 사람들이’죄 많은 딸기’를 즐기는 반면 75%의 사람들 만이’열정적 인 복숭아’를 즐겼다는 것을 알 수 있습니다. 그래서’죄 많은 딸기’가 선호되는 맛이 될 가능성이 더 큽니다.

이제 마케팅 팀이 설문 조사를 수행하는 동안 음료를 샘플링하는 사람의 성별과 같은 다른 정보를 수집했다고 가정합니다. 우리가 성별에 의해 우리의 데이터를 분할하면 어떻게됩니까?

이는 남성의 84.4%와 여성의 40%가’죄 많은 딸기’를 좋아하는 반면 남성의 85.7%와 여성의 50%는’열정적 인 복숭아’를 좋아한다는 것을 시사합니다. 우리가 생각하는 중지하는 경우,이 조금 이상한 것처럼 보일 수 있습니다: 샘플 데이터에 따르면 일반적으로 사람들은’죄 많은 딸기’를 선호하지만 남성과 여성 모두 별도로’열정적 인 복숭아’를 선호합니다. 이 심슨의 역설의 예입니다!
우리의 직관은 사람이 남성이든 여성이든 둘 다 선호되는 풍미가 자신의 성별을 알 수 없을 때 선호되어야한다는 것을 말해 주며,이것이 사실이 아니라는 것을 알아내는 것은 꽤 이상합니다-이것이 역설의 핵심입니다.

숨어있는 변수

심슨의 역설은 데이터를 여러 개의 개별 분포로 분할하는 숨겨진 변수가있을 때 발생합니다. 이러한 숨겨진 변수는 적절하게 숨어있는 변수라고하며 종종 식별하기 어려울 수 있습니다. 운 좋게,이것은 우리의 청량 음료 예제의 경우 아니다,우리의 마케팅 팀은 신속하게 새로운 맛을 샘플링 사람의 성별이 자신의 의견에 영향을 미치는 것을 볼 수 있어야한다.

역설을 설명 할 수있는 한 가지 방법은 숨어있는 변수(성)와 약간의 확률 이론을 고려하는 것입니다:나는 딸기가 마음에 들지 않는다고 생각한다.)

800/1000 = (760/900)×(900/1000) + (40/100)×(100/1000)

피(좋아하는 복숭아)=피(좋아하는 복숭아|남자)피(남자)+피(좋아하는 복숭아|여자)피(여자)

750/1000 = (600/700)×(700/1000) + (150/300)×(300/1000)

우리는 한계 확률을 생각할 수 있습니다 섹스(피(남자)과 피(여자))’죄 많은 딸기’의 경우 총 확률을 크게 이동시키는 가중치로 남성 의견을 향해. 우리의’열정적 인 복숭아’샘플에는 여전히 숨겨진 남성 편견이 있지만,그것은 강하지 않으므로 여성 의견의 비율이 더 많이 고려되고 있습니다. 이것은 샘플 내에서 분리 될 때 그것을 선호 할 가능성이 더 높은 각 성별에도 불구하고이 맛을 선호하는 일반 인구에 대한 낮은 한계 확률을 초래한다.

무슨 일이 일어나고 있는지 시각화:

각 색깔의 원은 각 맛을 샘플링 한 남성 또는 여성을 나타내며,각 원의 중심 위치는 해당 그룹의 맛을 좋아할 확률에 해당합니다. 두 그룹 모두 복숭아를 좋아하기 위해 오른쪽(더 높은 확률을 가짐)에 더 놓여 있음을 주목하십시오. 원이 성장함에 따라(예:샘플 비율 변경)우리는 맛을 좋아하는 한계 확률이 어떻게 변하는 지 볼 수 있습니다. 한계 분포는 샘플이 숨어있는 변수(성별)에 대해 가중치를 부여함에 따라 이동 및 전환됩니다.

이 예에서,우리의 연구 결과는 꽤 결정적이다,우리의 마케팅 팀이 달성하고자하는 것에 따라 데이터 관점 중 하나를 선택하는 트레이드 오프가 있기 때문에. 그룹화를 고려하고 우리의 연구 결과가 결정적이지 않다는 것을 깨닫는 것은 불안정한 결론을 내리는 것보다 우리 사업에 더 유용하며,이것을보고하는 것이 올바른 일이므로 드로잉 보드로 돌아가서 실제 통찰력을 생성 할 수있는 심층적 인 연구를 다시 샘플링하고 계획 할 수 있습니다.