- 이미지에서 관심영역을 선택후 그 이미지나⋯
- 네 ^^
- 제가 추천 시스템과 관련된 논문을 작성하고⋯
- 오타 발견해주셔서 고맙습니다. 수정했습니다 :)
- 안녕하세요. 좋은 글 감사합니다 :) 글 중에⋯
- 옙!
- 네~ ^^ 출처만 적어주시면 감사드리겠습니다!
- 안녕하세요 블로그 게시물 잘 보고있습니다.⋯
- 고맙습니다 ^^
- 덕분에 쉽게 이해가 되었습니다. 친절한 설명⋯
- keypoint.pt[0], keypoint.pt[1]이 각각 x, y⋯
- 안녕하세요, ORB알고리즘을 처음 공부하는⋯
- 읽어주셔서 고맙습니다 ~
- 정말 쉽고 흥미로운 이야기들입니다! 잘 읽고⋯
- 아하 그렇군요! ㅎㅎ 포스팅 정말 잘 읽고 갑⋯
귀퉁이 서재
DATA - 8. 심슨의 역설 본문

심슨의 역설 (Simpson's paradox)이란?
심슨이라는 통계학자가 정리한 역설로, 각각의 변수에 대한 가중치나 특성을 고려하지 않고 전체 통계 결과를 유추하다 보면 발생할 수 있는 오류를 뜻합니다.
예를 들어 보겠습니다. K대학교에는 전산학과와 산업디자인학과 밖에 없다고 가정합시다. K대학교의 남녀 합격률을 조사해보니 남학생 합격률이 훨씬 높다는 항의가 들어왔습니다. 아래의 표를 봅시다.
전체
지원자 | 합격자 | 합격률 | |
남학생 | 1,000명 | 730명 | 73% |
여학생 | 1,000명 | 270명 | 27% |
남학생, 여학생 모두 1,000명씩 지원을 했는데 남학생은 73%나 합격하고 여학생은 27% 밖에 합격하지 못했습니다. 음.. K대학교는 남학생에게 특혜를 주는 것 같습니다. 보다 자세한 조사를 위해 각 학과 별로 통계치를 냈습니다.
전산학과
지원자 | 합격자 | 합격률 | |
남학생 | 900명 | 720명 | 80% |
여학생 | 200명 | 180명 | 90% |
전산학과 합격률을 봅시다. 남학생 합격률은 80%이고 여학생 합격률은 90%입니다. 전산학과의 경우 여학생의 합격률이 더 높습니다. 그럼 산업디자인학과의 합격률을 한번 봅시다.
산업디자인학과
지원자 | 합격자 | 합격률 | |
남학생 | 100명 | 10명 | 10% |
여학생 | 800명 | 90명 | 11.25% |
음? 뭔가 이상합니다. 산업디자인학과 역시 여학생의 합격률이 더 높습니다. 전산학과, 산업디자인학과 모두 여학생의 합격률이 높은데 전체를 합쳐보면 남학생의 합격률이 더 높습니다.
이것이 바로 심슨의 역설입니다. 평균에 대한 착각을 불러일으키는 상황이죠. 학과별 합격률을 보시면 전산학과는 80~90% 대로 높고, 산업디자인학과는 10%대로 낮습니다. 합격률이 낮은 산업디자인학과로 여학생 지원자가 몰리면서 전체 합격률이 낮아진 것입니다.
더 쉬운 예를 들어보겠습니다. 이승엽의 타율은 3할이고, 홍길동의 타율은 4할이라고 합시다. 타율만 보면 홍길동이 이승엽보다 더 뛰어난 선수입니다. 하지만 이승엽은 강한 투수 10명과 약한 투수 3명을 상대로 했고, 홍길동은 강한 투수 3명과 약한 투수 10명을 상대로 했습니다. 강한 투수와의 타율도 이승엽 선수가 높고, 약한 투수와의 타율도 이승엽 선수가 높습니다. 그래도 홍길동 선수가 약한 투수 위주로 경기를 했기 때문에 전체 타율은 더 높을 수 있는 것입니다. (Reference1)
Reference
'데이터 분석' 카테고리의 다른 글
DATA - 10. 베이즈 추정(Bayesian Estimation) (8) | 2019.04.13 |
---|---|
DATA - 9. 베르누이 시행과 이항 분포 (0) | 2019.04.12 |
DATA - 8. 심슨의 역설 (0) | 2019.04.11 |
DATA - 7. 분산과 표준편차에서 n이 아니라 n-1로 나누는 이유 (자유도) (6) | 2019.04.10 |
DATA - 6. 기술 통계학과 추측 통계학 (0) | 2019.04.08 |
DATA - 5. 데이터의 종류 (양적 데이터, 질적 데이터) (0) | 2019.04.06 |
- Tag
- simpson's paradox, 심슨의 역설