귀퉁이 서재
DATA - 7. 분산과 표준편차에서 n이 아니라 n-1로 나누는 이유 (자유도) 본문
자유도(Degree of freedom)
자유도를 위키피디아에서 검색해봤습니다.
통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다.
무슨 말인지 예를 들어 설명해보겠습니다. A, B, C, D라는 4명의 사람이 a, b, c, d라는 물건을 선택한다고 합니다. A가 먼저 선택을 합니다. a, b, c, d 중 b를 선택했다고 합시다. A - b가 매칭이 되었습니다. B는 a, c, d 중에 선택을 해야 합니다. B는 a를 선택했습니다. C는 남은 c, d 중 d를 선택했습니다.
A - b, B - a, C - d가 매칭이 된 상태에서 D는 선택의 여지가 없습니다. c 밖에 남지 않았기 때문이죠.
4명의 사람이 있고, 4개의 선택지가 있을 때 자유롭게 선택할 수 있는 사람은 3명 뿐이죠, 마지막 한 사람은 남은 하나를 가질 수밖에 없습니다. 다시 위키피디아를 봅시다.
크기가 n인 표본의 자유도는 n-1이다
4명 중 자유롭게 선택할 수 있는 사람은 3명 뿐이라고 했습니다. 따라서 크기가 n인 표본의 자유도는 n-1입니다. 표준편차를 구할 때 n이 아니라 n-1로 나누어 줍니다. 표준편차를 구할 땐 표본 평균을 알아야 합니다. 표본 평균이 정해져 있는 상태에서는 n-1개의 표본만이 자유도를 가질 수 있습니다.
무슨 말이냐 하면,
평균 = (x1 + x2 + x3 + ... + x(n-1) + x(n)) / n
인데, 평균이 고정되어 있다면 x1 부터 x(n-1) 까지는 어떤 값이 되어도 상관없지만 마지막 x(n)은 평균을 맞추어 줘야 하기 때문에 자유도가 없습니다. 즉, x1부터 x(n-1)까지 값이 정해지면 자동으로 x(n)이 정해지는 것입니다. 표본 표준편차는 모 표준편차를 추정하기 위함입니다. 추정을 위해서는 모집단에 대한 정보를 주는 독립적인 자료를 사용해야 하는데 이 자료의 수를 자유도라고 하는 것입니다.
사실 n이 클수록 (30이상) 표준편차를 구할 때 n이든 n-1이든 크게 차이가 없습니다. 데이터 과학에서는 일반적으로 n이 굉장히 크기 때문에 자유도를 신중하게 고려할 필요는 없습니다.
분산과 표준편차를 구할 때 n이 아닌 n-1로 나누는 이유는?
우선, 모집단과 표본집단의 특징에 대해 알아야 합니다. 전 세계 총인구의 IQ에 대해 모 분산을 측정했다고 합시다. 전 세계 인원 80억 명 모두를 하나하나 IQ 테스트해서 모 분산을 구했습니다. 이는 실제 모집단 전체의 분산입니다. 이제, 어떤 대학생 한 명이 전 세계 총인구의 표본 분산을 구한다고 합시다(여기서 모분산은 모집단(전 세계 인구 전체)의 실제 분산 값을 뜻하고, 표본 분산은 샘플링한 표본의 분산 값을 뜻합니다). 80억 명 모두 조사할 수 없으므로 8천 명을 샘플링합니다. 8천 명을 샘플링하면 어떤 일이 일어날까요. 전 세계 인구의 IQ는 정규분포를 그릴 것입니다. 80억 명 중 8천 명을 샘플링하면 상대적으로 중앙값 부근에서 표본이 많이 생길 것입니다. 당연히 중앙값 부근의 값이 많기 때문입니다. 그렇게 되면 표본의 흩어짐 정도(분산)가 모집단의 흩어짐 정도보다 덜할 것입니다. 즉, 표본 분산은 모 분산보다 작은 경향이 있습니다. 모 분산보다 작아지려는 경향을 가진 표본 분산을 보존해줘야 합니다. n으로 나눈 표본 분산보다 n-1로 나눈 표본 분산 값이 더 클 것입니다. 이런 식으로 표본 분산의 작아지려는 경향을 자유도로 보존할 수 있습니다.
Reference
'데이터 분석' 카테고리의 다른 글
DATA - 9. 베르누이 시행과 이항 분포 (0) | 2019.04.12 |
---|---|
DATA - 8. 심슨의 역설 (0) | 2019.04.11 |
DATA - 6. 기술 통계학과 추측 통계학 (0) | 2019.04.08 |
DATA - 5. 데이터의 종류 (양적 데이터, 질적 데이터) (2) | 2019.04.06 |
DATA - 4. 판다스 활용 Medical Appointment No-show 분석 (0) | 2019.04.06 |