귀퉁이 서재
DATA - 8. 심슨의 역설 본문
심슨의 역설 (Simpson's paradox)이란?
심슨이라는 통계학자가 정리한 역설로, 각각의 변수에 대한 가중치나 특성을 고려하지 않고 전체 통계 결과를 유추하다 보면 발생할 수 있는 오류를 뜻합니다.
예를 들어 보겠습니다. K대학교에는 전산학과와 산업디자인학과 밖에 없다고 가정합시다. K대학교의 남녀 합격률을 조사해보니 남학생 합격률이 훨씬 높다는 항의가 들어왔습니다. 아래의 표를 봅시다.
전체
지원자 | 합격자 | 합격률 | |
남학생 | 1,000명 | 730명 | 73% |
여학생 | 1,000명 | 270명 | 27% |
남학생, 여학생 모두 1,000명씩 지원을 했는데 남학생은 73%나 합격하고 여학생은 27% 밖에 합격하지 못했습니다. 음.. K대학교는 남학생에게 특혜를 주는 것 같습니다. 보다 자세한 조사를 위해 각 학과 별로 통계치를 냈습니다.
전산학과
지원자 | 합격자 | 합격률 | |
남학생 | 900명 | 720명 | 80% |
여학생 | 200명 | 180명 | 90% |
전산학과 합격률을 봅시다. 남학생 합격률은 80%이고 여학생 합격률은 90%입니다. 전산학과의 경우 여학생의 합격률이 더 높습니다. 그럼 산업디자인학과의 합격률을 한번 봅시다.
산업디자인학과
지원자 | 합격자 | 합격률 | |
남학생 | 100명 | 10명 | 10% |
여학생 | 800명 | 90명 | 11.25% |
음? 뭔가 이상합니다. 산업디자인학과 역시 여학생의 합격률이 더 높습니다. 전산학과, 산업디자인학과 모두 여학생의 합격률이 높은데 전체를 합쳐보면 남학생의 합격률이 더 높습니다.
이것이 바로 심슨의 역설입니다. 평균에 대한 착각을 불러일으키는 상황이죠. 학과별 합격률을 보시면 전산학과는 80~90% 대로 높고, 산업디자인학과는 10%대로 낮습니다. 합격률이 낮은 산업디자인학과로 여학생 지원자가 몰리면서 전체 합격률이 낮아진 것입니다.
더 쉬운 예를 들어보겠습니다. 이승엽의 타율은 3할이고, 홍길동의 타율은 4할이라고 합시다. 타율만 보면 홍길동이 이승엽보다 더 뛰어난 선수입니다. 하지만 이승엽은 강한 투수 10명과 약한 투수 3명을 상대로 했고, 홍길동은 강한 투수 3명과 약한 투수 10명을 상대로 했습니다. 강한 투수와의 타율도 이승엽 선수가 높고, 약한 투수와의 타율도 이승엽 선수가 높습니다. 그래도 홍길동 선수가 약한 투수 위주로 경기를 했기 때문에 전체 타율은 더 높을 수 있는 것입니다. (Reference1)
Reference
'데이터 분석' 카테고리의 다른 글
DATA - 10. 베이즈 추정(Bayesian Estimation) (8) | 2019.04.13 |
---|---|
DATA - 9. 베르누이 시행과 이항 분포 (0) | 2019.04.12 |
DATA - 7. 분산과 표준편차에서 n이 아니라 n-1로 나누는 이유 (자유도) (8) | 2019.04.10 |
DATA - 6. 기술 통계학과 추측 통계학 (0) | 2019.04.08 |
DATA - 5. 데이터의 종류 (양적 데이터, 질적 데이터) (2) | 2019.04.06 |