귀퉁이 서재

[찰스 윌런] 벌거벗은 통계학 본문

책과 사유

[찰스 윌런] 벌거벗은 통계학

Baek Kyun Shin 2022. 1. 5. 00:26

통계를 직관적으로 이해할 수 있게 도와주는 책이다. 수식은 가능한 한 적게 실어서 읽기 쉽다. 수학으로 먼저 다가가지 않고, 실생활 예제를 바탕으로 직관으로 먼저 이해하게끔 만든다. 이런 점에서 가볍게 읽기 좋으면서도 남는 게 있는 교양서다.

책 전체를 아우르는 큰 주제는 이거다.

통계는 복잡한 현상을 요약해서 설명하는 불완전하지만 간편하고 유용한 도구다.
하지만 잘못 사용하면 완벽한 속임수가 되거나 엉뚱한 해석을 하게 만든다.

예를 들어보자. 학점 평균이 3.7인 대학생이 2.5인 대학생보다 뛰어난 학생일까? 일반적으로 보면 그렇다. 학점 평균은 학생을 서로 쉽고 편리하게 비교하도록 하는 기술 통계 값이기 때문이다. 하지만 완벽하진 않다. 학점 평균이 2.5인 학생이 3.7인 학생보다 더 어려운 과목 위주로 수강했을 수 있지 않은가? 그만큼 더 도전하는 학생일 수 있지 않나. 이 학생이 평균 학점 3.7인 학생이 들은 과목을 똑같이 들었다면 평균 학점을 3.7보다 높게 받았을 수도 있다. 이처럼 평균 학점으로 두 학생을 올바로 비교할 수는 없다. 정확하게 견주려면 많은 정보를 활용해야 한다. 그러기엔 시간도 자원도 낭비다. 그러니 간편하게 평균 학점을 비교하는 것뿐이다. 통계는 현상을 완벽히 설명하지 못한다. 불완전하지만 간편한 도구라서 사용하는 것이다.

이런 예는 우리 주변에 많다. 출루율이 좋은 야구선수가 훌륭한 선수일까? 지니계수가 불평등을 완벽하게 나타낼까? 평균 학점과 마찬가지로 그렇지 않다. 기술 통계는 정보를 간편하게 제공한다는 장점이 있지만 동시에 완벽한 측정수단이 아니라는 단점이 있다.

기술 통계를 향한 지나친 믿음은 잘못된 결론으로 이어지거나 바람직하지 않은 행동을 하게 만들 수 있다는 점에 유의해야 한다!

아주 좋은 상황에서도 통계가 '진실'을 온전히 밝혀내는 경우는 드물다. 우리는 흔히 불완전한 데이터를 바탕으로 특정 상황에 맞는 판단을 내리게 된다.


표본 추출의 중요성

통계는 표본을 기반으로 한다. 모집단을 조사하기는 어려우니 표본으로 모집단의 성격을 추론하는 것이다. 표본을 뽑을 때 중요한 점은 다음과 같다.

  1. 표본의 대표성은 엄청나게 중요하다. 표본이 모집단을 잘 대표해야 통계학이 갖는 많은 강력한 도구를 사용할 수 있다.
  2. 질 좋은 표본을 구하는 일은 생각보다 어렵다.
  3. 터무니없는 통계 대부분은 좋은 통계 방법을 형편없는 표본 집단에 적용해서이지 그 반대가 아니다.
  4. 표본 크기는 중요하며, 클수록 좋다.

쓰레기를 넣으면 쓰레기가 나온다(Garbage In Garbage Out)

통계 분석 방법은 제대로인데, 데이터가 엉터리면 터무니없는 실수를 저지르게 된다. 쓰레기를 넣으면 쓰레기가 나오기 때문에. 다음은 '쓰레기를 넣으면 쓰레기가 나온다'의 흔한 사례들이다.

  • 선택 편향 :
    대통령 선거에 나온 허경영 후보에게 투표한 비율이 1%라고 하자. 허경영 후보는 화를 내며 분명 자기 주변에서 조사했을 때는 본인의 예상 득표율이 20%라고 우긴다. 그래서 투표 결과가 조작이라 한다고 가정해보자. 과연 조작일까? 이게 바로 선택 편향의 오류이다. 허경영 후보는 본인 주변에 있는 사람들을 대상으로 조사를 했기 때문에 당연히 본인 성향과 비슷한 부류의 사람들이 많았을 거다. 표본이 모집단을 대표하지 못하고 일부 부류의 사람들로 편향됐다. 이게 선택 편향이다.
  • 출판 편향:
    게임을 많이 할수록 암 발병률이 낮다는 연구 결과가 있다고 하자. 이 연구는 믿을만한가? 통계학에서 반복되는 중요한 개념 가운데 하나는 특이한 결과가 이따금 우연히 발생한다는 사실이다. 100개의 연구를 했을 때, 그중 한 연구에서는 마치 게임과 암 발병률이 낮은 것 사이에 통계적 연관성이 있다는 황당무계한 결과를 얻을 수도 있다. 여기서 문제는 게임과 암 발병률 사이에 아무 연결 고리도 찾지 못한 99개의 연구는 흥미롭지 않다는 이유로 출판되지 않는다는 점이다. 그러면 우리는 우연히 엉뚱한 결과를 낸 연구만 볼 수 있다. 그 연구만 출판됐기 때문이다.
  • 기억 편향:
    암에 걸린 여성을 대상으로 어렸을 때 식습관이 어땠는지 물어본다고 하자. 이 연구 목적은 어렸을 때 식습관이 나중에 암에 걸릴 확률을 높이는지 조사하는 게 아니다. 암에 걸린 사실이 어렸을 때 자신의 식습관을 기억하는 데 어떤 영향을 미치는가를 조사한 연구다. 다시 말해 기억 편향을 조사하려는 거다. 우리는 특별히 좋거나 나쁜 결과를 설명하려 할 때 우리 기억이 '구조적으로 결함이 있는' 것으로 나타난다. 암에 걸린 여성은 어렸을 때 자신이 안 좋은 식습관을 가졌다고 실제보다 더 기억을 왜곡한다. 이러면 올바른 통계 분석이 힘들다. 
  • 생존 편향:
    어느 고등학교 교장이 부임한 뒤에, 그 학교 학생들의 성적이 4년간 꾸준히 올랐다고 가정해보자. 이 교장은 훌륭한 교장일까? 꼭 그렇진 않다. 생존 편향을 의심해봐야 한다. 만약 이 교장이 성적이 낮은 학생들을 자퇴하게 만들었다면? 성적이 낮은 학생들이 자퇴할수록 남아 있는 학생들의 평균 성적은 올라간다. 나머지 학생들의 실제 성적은 그대로여도 학교 전체 평균 성적은 자연스레 올라간다. 바로 생존 편향 현상이다. 
  • 건강한 피험자 편향:
    비타민이 정말 건강에 도움이 될까? 의학적인 사실은 제외하고 통계 분석으로만 알아본다고 하자. 비타민을 꾸준히 먹은 사람들이 실제로 건강해졌을 때, 비타민은 건강에 도움된다고 말할 수 있냐는 말이다. 비타민을 꾸준히 먹는 사람들이 건강한 이유는 그들이 비타민을 챙겨 먹는 부류의 사람들이기 때문일 수 있다. 그런 부류의 사람들은 잠도 일찍 자고, 운동도 할 테고, 건강에 나쁜 것은 피할 가능성이 높다. 비타민 자체가 효과 있다기보다는 그들이 건강을 좇는 부류의 사람들이기 때문일 수 있다.

이처럼 좋은 데이터를 구하는 일은 보기보다 어려운 일이다.


중심극한정리

우리는 중심극한정리에 고마워해야 한다. 중심극한정리 하나만으로 통계적 추론에 큰 도움을 받을 수 있으니까.

중심극한정리란 모집단의 분포와 상관없이 표본 평균은 정규분포를 따른다는 이론이다. 표본 개수가 많아질수록 분포는 정규분포에 더 가까워진다. 이를 통해 어떻게 통계적 추론을 할 수 있을까? 잠시 표준편차와 표준오차의 차이를 정리해보자.

  • 표준편차는 모집단 내의 분산을 측정한다.
  • 표준오차는 표본 평균의 분산을 측정한다. 
  • 따라서 표준오차는 표본 평균의 표준편차다.

표준오차를 구하는 공식은 이렇다

표준오차 = 표준편차 / √표본 크기

이 식에서 알 수 있는 사실은 표본 크기가 클수록 표준오차가 작아진다는 점이다. 표준오차는 표본 평균의 분산이므로, 표준오차가 작아진다는 말은 표본 평균의 분산이 작아진다는 말, 곧 표본 평균은 모집단 평균 주변에 더 몰려 있다는 뜻이다. 더불어 표준편차가 클수록 표준오차도 커진다. 즉, 표본 평균은 모집단이 더 퍼져 있을 때(표준편차가 클 때) 모집단 평균 주변에 덜 몰려 있다(표준오차도 커진다).

표본 평균이 모집단 평균에서 2표준오차 범위를 벗어날 가능성은 비교적 적고, 3표준오차 범위를 벗어날 가능성은 매우 적다. 결과를 우연히 관측할 가능성이 적을수록 다른 요소가 작용한다고 더 확신할 수 있다. 이게 바로 통계적 추론 과정이다. 

이렇게 요약하니 좀 헷갈릴 수 있는데, 책에서는 사례를 바탕으로 더 자세하고 쉽게 설명한다.

다시 말하지만 통계적 추론도 어떤 사실을 확실히 입증하지 못한다. 통계적 추론의 힘은 입증하는 데 있지 않다. 어떤 패턴이나 결과를 관찰한 뒤 확률을 이용해 가장 그럴듯한 원인을 찾는 데 있다.


회귀분석

이번엔 회귀분석 차례다. 회귀분석은 복잡한 질문에 명쾌한 답을 준다. 답은 옳은 수도 틀릴 수도 있다. 잘못 다루는 사람 손에 들어가면 회귀분석은 완전히 틀리거나 오해를 살 만한 결과를 내준다. 

다음은 회귀분석을 잘못 해석하는 경우다.

  • 비선형 관계를 분석하는 데 선형 회귀분석을 사용한 경우:
    선형 관계가 아닌데 선형 회귀분석을 사용해 해석하려 하면 안 된다.
  • 상관관계와 인과관계를 잘못 해석:
    상관관계와 인과관계는 다르다. 관련이 있다고 원인과 결과 관계가 되는 게 아니다. 
  • 역인과관계:
    다이어트 식품을 구매한 금액과 몸무게가 비례한다고 하자. 이를 바탕으로 다이어트 식품은 몸무게를 빼는 데 도움이 안 된다고 판단할 수 없다. 다이어트 식품을 많이 사서 몸무게가 늘어난 게 아니라, 몸무게가 늘어서 다이어트 식품을 많이 산 것일 수도 있기 때문에.
  • 변수 누락:
    중요한 변수를 빼고 회귀분석을 하면 잘못된 결론에 다다를 수 있다. 가령 골프를 많이 칠수록 심장병에 걸릴 확률이 높아진다는 뉴스를 본다면 의구심이 들 테다. 운동을 했는데 심장병에 걸릴 확률이 높아진다고? 여기서는 변수를 누락하지 않았을까 생각해봐야 한다. 보통 젊은 사람보다 나이 든 사람이 골프를 많이 친다. 나이가 들었으니 당연히 젊은 사람에 비해 심장병에 걸릴 확률이 높다. 골프를 많이 치는 사람은 나이가 많다는 사실을 누락하고 회귀분석을 한 결과, 잘못된 결론에 도달한 것이다. 나이라는 변수도 추가해서 같은 연령대 사람들끼리 비교하면 골프를 많이 칠수록 심장병에 걸릴 확률이 낮아진다는 결론을 얻을 것이다.
  • 서로 관련이 깊은 설명변수:
    회귀식에서 서로 관련이 높은 두 개 이상의 변수가 함께 있다고 하자. 그러면 두 변수 각각과 설명하고자 하는 현상 간의 상관관계를 알아내지 못할 수도 있다. 이런 현상을 다중공선성이라고 한다.
  • 데이터 범위를 벗어난 추정:
    성인의 몸무게를 추정하는 회귀식을 구했다고 하자. 이 회귀식을 이용해 갓난아이의 몸무게를 추정하면? 몸무게를 제대로 구하지 못한다. 처음에 의도한 데이터 범위 안에서 회귀식을 사용해야 한다.
  • 지나치게 많은 변수:
    회귀식에 너무 많은 변수를 넣으면 오히려 제대로 된 결과를 얻지 못할 수 있다. 의미 있는 변수가 있어야 하지 쓸데없는 변수까지 모조리 있을 필요는 없다.
Comments