귀퉁이 서재

DATA - 13. 가설검정과 p-value, 본페로니 교정 본문

데이터 분석

DATA - 13. 가설검정과 p-value, 본페로니 교정

데이터 파수꾼 Baek Kyun Shin 2019. 4. 19. 22:09

가설검정

가설검정(Test of hypotheses)이란 자연법칙이나 사회현상에 대한 관찰 결과를 기반으로 두 가지 가설을 세우고 그 두 가설 중 어느 것이 참인지를 가려내는 것입니다. 가설검정은 학문적 연구에서 뿐만 아니라, 실생활과 관련된 거의 모든 분야에서 쓰입니다. 정책결정, 마케팅 전략 결정, 소비자 선호도를 반영한 제품 설계 등의 문제가 모두 가설검정의 영역에 속한다고 할 수 있습니다.

귀무가설과 대립가설

가설검정을 하기 위해서는 서로 대립되는 가설 두 개를 세웁니다. 통상적으로 새로 제기되는 주장을 대립가설(alternative hypothesis)로 하고, 지금까지 사실로 인식되어온 주장을 귀무가설(null hypothesis)로 합니다. 암을 치료하는 신약이 개발되어 효과성을 측정한다고 했을 때, '신약이 암을 치료하는 효과가 있다'가 대립가설이 되고, '신약은 암을 치료하는 효과가 없다'가 귀무가설이 됩니다. 새로 제기된 주장이 '이 약이 효과가 있다'이므로 대립가설이 되는 것입니다. 일반적으로 귀무가설은 H0, 대립가설은 H1으로 표기합니다.

가설검정의 절차는 관심의 대상인 모집단으로부터 표본을 뽑아 귀무가설과 대립가설 중 참인 것을 판정하는 것입니다. 표본의 결과를 보고 특정 가설이 참이라고 판정하는 것을 그 가설을 채택한다(accept)라고 하며, 거짓이라 판정하는 것을 그 가설을 기각한다(reject)고 합니다. 통상 귀무가설을 기준으로 판정을 내립니다. 귀무가설을 채택한다는 것은 새롭게 제기된 주장이 받아들여지지 않는다는 뜻이고, 귀무가설을 기각한다는 것은 새롭게 제기된 주장을 받아들인다는 뜻입니다. 여기서 주의할 점은 가설검정을 한다는 것이 귀무가설과 대립가설 중 하나를 선택하는 측면으로 바라보면 안된다는 것입니다. 새로운 데이터를 수집하기 전까지는 귀무가설이 사실인 것입니다. 즉, 귀무가설과 대립가설을 'A, B 중 하나를 선택하는 것'으로 보는 게 아니라 우리가 지금까지 사실로 알고 있었던 귀무가설을 기각하느냐 기각하지 않느냐의 관점으로 바라봐야 합니다.

제 1종 과오와 제 2종 과오

H0가 참인데 이를 기각하는 과오를 제 1종 과오(type I error), H0이 거짓인데 이를 채택하는 과오를 제 2종 과오(type II error)라 합니다. 제 1종 과오를 범할 확률의 허용한계를 미리 정해줄 때, 이 한계값을 유의수준(significant level)이라고 부릅니다. 제 1종 과오를 범할 확률 P(H0 기각 | H0 참)을 α로, 제 2종 과오를 범할 확률 P(H0 채택 | H0 거짓)을 β로 표기합니다. 이를 제조업의 품질검사와 연관을 시켜 생각할 수도 있습니다. 제 1종 과오를 생산자 위험, 제 2종 과오를 소비자 위험이라고 합니다. 참인데 참이 아니라고 판정하는 과오 (양품인데 불량품으로 판정하는 과오)는 생산자에게 손해입니다. 팔 수 있는 물건인데 불량품으로 판정해 못파는 것이니까요. 반면, 참이 아닌데 참이라고 판정하는 과오 (불량품인데 양품이라고 판정하는 과오)는 소비자에게 해가 됩니다. 회사에서는 불량품을 양품으로 오해하고 팔았는데 소비자는 불량품을 받아간 거니까요. 이렇듯 제 1종 과오와 제 2종 과오는 가설검정에서 불가피한 것들입니다. 제 1종 과오와 제 2종 과오를 최소화할 수 있는 방향으로 가설검정을 해야합니다. (Reference1: 통계학 이론과 응용, 배도선 저)

p-value

p-value(p-값)의 정의를 위키피디아에서 검색해봤습니다.

p-값(유의확률, p-value)은 귀무 가설(null hypothesis)이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률이다. p-값은 관찰된 데이터가 귀무가설과 양립하는 정도를 0에서 1 사이의 수치로 표현한 것이다. p-값이 작을수록 그 정도가 약하다고 보며, 특정 값 (대개 0.05나 0.01 등) 보다 작을 경우 귀무가설을 기각하고, p-값이 클수록 귀무가설을 채택한다.

(Reference2)

아래의 가설을 예로 생각해봅시다.

귀무가설: 평균이 100이다
대립가설: 평균이 100이 아니다

우선, 모집단의 평균이 100이라고 가정합시다. 즉, 귀무가설이 참이라고 가정합시다. 모집단으로부터 표본을 추출했는데 그 표본의 평균은 120이었다고 합시다. 모집단의 평균은 100인데 추출한 표본의 평균은 120입니다. 평균이 100인 모집단으로부터 평균이 120인 표본을 추출한 것은 충분히 가능할 수도 있고, 그렇게 않을 수도 있습니다. p-값(즉, 평균이 120보다 크거나 같을 확률)이 유의수준(일반적으로 0.01 혹은 0.05로 정함)보다 작다면 평균이 120인 표본은 평균이 100인 모집단이 아닌 다른 곳에서 추출되었다고 판단을 하는 것입니다. 평균이 120보다 크거나 같을 확률이 굉장히 작다는 뜻이므로 이 통계치는 평균이 100인 모집단으로부터 추출된 것이 아니라는 뜻입니다. 즉, 우연에 의해 평균이 120이 나온 게 아니라 아예 다른 모집단으로부터 추출이 되어 평균이 다른 것이라고 판단을 합니다. 반대로, p-값이 충분히 크다면 우연에 의해 평균이 120으로 나온 것이고 판단합니다. 즉, 평균이 100인 모집단으로부터 평균이 120인 표본이 충분히 추출 가능하다고 판단하는 것입니다. 전자의 경우는 분산이 작을 경우 발생할 수 있고, 후자의 경우는 분산이 클 경우 발생할 수 있을 겁니다. p-값에 대해 아주 자세하고 쉽고 명쾌하게 설명해놓은 블로그가 있습니다. p-값이 명확히 이해가 가지 않는다면 본 링크를 꼭 참고해주시기 바랍니다. (Reference3)

즉, p-값과 α(유의수준, 제1종 과오 확률)를 기준으로 귀무가설의 기각/채택 여부를 아래와 같이 결정할 수 있습니다.

p-value ≤ α --> 귀무가설(H0) 기각
p-value >α --> 귀무가설(H0) 채택

가설검정 예시: (Reference4)

대립가설 종류에 따른 p-value 영역

p-value란 위에서 설명했던 것 처럼 귀무가설이 참이라고 가정했을 때, 관측한 값과 같거나 더 극단적인 값이 나올 확률 (대립가설 방향으로)입니다.

대립가설이 μ>0일 때, μ<0일 때, μ≠0일 때, 그래프 상에서 p-value를 나타내는 범위는 아래와 같습니다.

출처: Udacity

우선 대립가설이 μ>0일 때를 알아보겠습니다. 귀무가설은 μ≤0이고, 대립가설은 μ>0입니다. 즉, 검정하고자 하는 가설이 μ>0인 겁니다. 위 그래프에서 보이는 것처럼 우리가 추출한 표본의 평균이 5라고 합시다. 즉, 우리가 샘플링한 값의 평균은 5인데 이 때 모집단의 평균이 0보다 크지 않겠느냐는 가설을 검정하는 문제입니다. 이 때 p-value를 구해서 p-value가 일정 수준보다 작다면 귀무가설을 기각하고 대립가설을 채택하게 되는 것입니다. p-value는 위 그래프에서 노란색부분의 넓이와 같습니다. (Right-tail test)

우리가 관측한 값은 5인데 이와 같거나 그보다 큰 값이 나올 확률이 p-value이고, 그 p-value가 노란색 부분의 넓이가 되는 것입니다. 다시 한번 말하면, 우리가 추출한 표본의 값이 5인데 5, 6, 7, 8.. 등이 나올 확률이 굉장히 작다면 (즉, p-value가 작다면) 이는 귀무가설에 해당하는 모집단이 아닌 다른 모집단으로부터 추출된 표본이라고 생각할 수 있습니다. 따라서 p-value가 작다면, 혹은 노란색 영역이 작다면 귀무가설을 기각하는 것입니다. 즉, 모집단의 평균은 0보다 작거나 같은 것이 아니라 0보다 크다고 말할 수 있습니다.

출처: Udacity

이제는 반대 케이스입니다. 대립가설의 부등호 방향으로 그래프 상 p-value가 차지하는 범위의 방향도 결정됩니다. (Left-tail test)

출처: Udacity

대립가설이 ≠ 등호를 가질 때는 위와 같이 양 끝 영역의 합이 p-value가 됩니다. (Two-tail test)

본페로니 교정

아래는 본페로니 교정(Bonferroni correction)에 대한 위키피디아 정의입니다.

통계추론에서 관측 데이터에 대해 귀무가설이 성립할 확률이 낮을 경우 귀무가설을 기각함으로써 대립가설을 채택한다. 이때, 검정하는 가설의 숫자가 늘어나면 귀무가설이 기각될 확률이 낮더라도 기각될 가능성 더욱 늘어나게 된다. 이와 같은 경우, 귀무가설이 참임에도 불구하고 기각하는 제1종 오류가 발생한다. 이와 같은 오류를 보정하기 위해서 여러개의 가설들에 대해서 최소한 하나의 제1종오류가 발생할 가능성(familywise error rate; FWER)을 계산해 보정할 수 있다. 예를 들어 n개의 독립 혹은 비독립의 가설을 검정할 경우, 유의확률을 1/n로 낮추어 검정하는 것이다.

가설검정을 한번할 때 제 1종 오류가 발생할 확률은 α입니다. 하지만 유사한 가설검정을 5번한다면 제 1종 오류가 발생할 확률이 5배 커집니다. 즉, 가설검정을 많이 하면 많이 할수록 귀무가설이 참인데 기각하는 오류의 확률이 늘어나는 것입니다. 이를 보정하기 위해 제 1종 오류가 발생할 확률 α를 가설검정 횟수로 나누어줄 수 있습니다. 따라서 가설검정을 1번 시행할 때의 유의확률이 α라면, n번 시행할 때의 유의확률은 α/n로 보정해 검정을 합니다. 그럼 가설검정 n번 전체를 두고 보면 유의확률이 α가 되는 것입니다. (Reference5)

References

Reference1: 통계학 이론과 응용, 배도선 저

Reference2: 위키피디아 (유의 확률)

Reference3: p-value란 무엇인가

Reference4: Hypothesis testing and p-values

Reference5: 위키피디아 (본페로니 교정)

 

2 Comments
댓글쓰기 폼