귀퉁이 서재

DATA - 8. 심슨의 역설 본문

데이터 분석

DATA - 8. 심슨의 역설

Baek Kyun Shin 2019. 4. 11. 20:25

심슨의 역설 (Simpson's paradox)이란?

심슨이라는 통계학자가 정리한 역설로, 각각의 변수에 대한 가중치나 특성을 고려하지 않고 전체 통계 결과를 유추하다 보면 발생할 수 있는 오류를 뜻합니다. 

예를 들어 보겠습니다. K대학교에는 전산학과와 산업디자인학과 밖에 없다고 가정합시다. K대학교의 남녀 합격률을 조사해보니 남학생 합격률이 훨씬 높다는 항의가 들어왔습니다. 아래의 표를 봅시다.

전체

  지원자 합격자 합격률
남학생 1,000명 730명 73%
여학생 1,000명 270명 27%

남학생, 여학생 모두 1,000명씩 지원을 했는데 남학생은 73%나 합격하고 여학생은 27% 밖에 합격하지 못했습니다. 음.. K대학교는 남학생에게 특혜를 주는 것 같습니다. 보다 자세한 조사를 위해 각 학과 별로 통계치를 냈습니다.

전산학과

  지원자 합격자 합격률
남학생 900명 720명 80%
여학생 200명 180명 90%

전산학과 합격률을 봅시다. 남학생 합격률은 80%이고 여학생 합격률은 90%입니다. 전산학과의 경우 여학생의 합격률이 더 높습니다. 그럼 산업디자인학과의 합격률을 한번 봅시다.

산업디자인학과

  지원자 합격자 합격률
남학생 100명 10명 10%
여학생 800명 90명 11.25%

음? 뭔가 이상합니다. 산업디자인학과 역시 여학생의 합격률이 더 높습니다. 전산학과, 산업디자인학과 모두 여학생의 합격률이 높은데 전체를 합쳐보면 남학생의 합격률이 더 높습니다. 

이것이 바로 심슨의 역설입니다. 평균에 대한 착각을 불러일으키는 상황이죠. 학과별 합격률을 보시면 전산학과는 80~90% 대로 높고, 산업디자인학과는 10%대로 낮습니다. 합격률이 낮은 산업디자인학과로 여학생 지원자가 몰리면서 전체 합격률이 낮아진 것입니다. 

더 쉬운 예를 들어보겠습니다. 이승엽의 타율은 3할이고, 홍길동의 타율은 4할이라고 합시다. 타율만 보면 홍길동이 이승엽보다 더 뛰어난 선수입니다. 하지만 이승엽은 강한 투수 10명과 약한 투수 3명을 상대로 했고, 홍길동은 강한 투수 3명과 약한 투수 10명을 상대로 했습니다. 강한 투수와의 타율도 이승엽 선수가 높고, 약한 투수와의 타율도 이승엽 선수가 높습니다. 그래도 홍길동 선수가 약한 투수 위주로 경기를 했기 때문에 전체 타율은 더 높을 수 있는 것입니다. (Reference1)

Reference

Reference1 : 위키피디아 (심슨의 역설)

Comments