귀퉁이 서재
[권정민] 데이터 분석가의 숫자유감 본문
많은 사람들이 AI나 데이터 분석을 마치 마법처럼 생각한다. 데이터만 있으면 '뿅'하고 유의미한 인사이트를 얻을 거라 믿는다. AI나 데이터 분석을 잘 모르는 사람들이 흔히 오해하는 바다. 아니 오히려 얕게나마 데이터 분석 관련 책을 읽거나 특강을 들은 사람들이 더 심하다. 비IT 업계의 많은 관리자들이 그렇지 않을까 싶다.
이 책은 회사에서 발생하는 데이터 분석 관련 일화를 바탕으로, 데이터에 관한 오해와 진실을 소개한다. 만화와 글로 이루어져 읽기도 쉽다. 구성도 시원해서 1~2시간이면 다 본다. 데이터를 선무당처럼 아는 마케팅 본부장과 데이터 분석에 능숙한 권 대리, 이 대리가 등장인물이다. 귀여운 만화 캐릭터로 재미난 일화를 그려냈지만 데이터를 모르는 사람들의 섣부른 판단 때문에 저자가 얼마나 답답했을지 짐작이 된다. 책 속에서 페이소스가 물씬 느껴진다.
주요 장을 다음과 같이 요약해봤다.
1장 상관관계와 인과관계
상관관계와 인과관계는 다르다. 하지만 상당히 많은 사람들이 오해한다. 예컨대, 아이스크림 판매량과 해변에서의 물놀이 사고 빈도가 비슷한 양상을 보인다고 하자. 이 양상을 보고 아이스크림을 많이 먹으면 물놀이 사고 발생 빈도가 높아진다고 할 수 있을까? 아니다. 아이스크림 판매량과 물놀이 사고 빈도는 상관관계가 있는 거지 인과관계가 있는 게 아니다.
아이스크림은 여름에 많이 팔린다. 물놀이 사고도 몰놀이 이용자가 많은 여름에 많이 발생한다. 그저 여름이니 아이스크림이 많이 팔리고, 물놀이 사고 빈도가 많아진 것이다. 아이스크림 판매량이 물놀이 사고 빈도의 원인은 아니다. 우리는 흔히 두 데이터의 양상만 보고 인과관계라 생각해 의사결정을 하는 경우가 있다. 이런 섣부른 판단을 경계해야 한다. 완벽하게 인과관계를 파악하기는 힘들겠지만 상관관계와 인과관계가 다르다는 점만 유의해도 좋을 것 같다.
3장 모수와 표본
모집단은 전체 집단이 아니다. 모집단이란 관심있는 특성을 수치로 나타낸 조사대상 모두의 수치적 자료 집합을 뜻한다. 모집단에서 뽑은 부분집합을 표본 또는 샘플이라고 한다. 또한 모집단의 특성을 나타내는 양적인 측도를 모수라고 한다. 쉽게 말해 모수는 모집단의 통곗값이다. 모수를 바탕으로 모집단의 형태를 추정할 수 있다. 반면 표본의 특성을 나타내는 양적인 측도를 통계량이라고 한다.
데이터 분석은 모집단의 형태/특징을 추정하는 방식으로 이루어진다. 모집단 자체를 다룰 수 있는 경우는 거의 없다. 특정 사이트 가입자 전원을 대상으로 일정 기간 동안 실험하더라도 탈퇴한 사람, 적게 사용하는 사람, 늦게 가입한 사람 등은 포함되지 않는다.
4장 확률과 분포
당연한 말이지만 확률은 보장하는 수치가 아니다. 전체 이용자의 구매 확률이 20%라고 할 때, 실제 10명 중 1명만 구매할 수도 있다. 확률은 보장이 아니니까. 다만 대수의 법칙에 따라 이용자가 많아지면 실제 구매 비율이 확률값에 가까워진다. 가령 이용자가 10,000명이라면 그중 약 2,000명 정도는 구매를 할 것이다.
따라서 그땐 맞고 지금은 틀릴 수 있다. 그게 확률이니까.
5장 실험을 통한 의사결정
실험은 만능이 아니다.
실험에서 유의미한 결과를 도출하려면 통제 변인을 잘 고정해야 한다. 우리가 원하는 변수만 바꾸고, 외부 변수를 포함한 모든 통제 변인을 고정해야 제대로 된 결과가 나온다. 그렇지만 모든 통제 변인을 고정하는 게 생각처럼 쉬운 일은 아니다. 그러니 실험을 잘 설계해야 엉뚱한 의사 결정을 막을 수 있다.
6장 그래프 읽기
그래프에 현혹되지 말자. 꼭 숫자를 봐야 한다.
다음 사진은 스티브잡스가 발표할 때 사용한 그래프다. 스티브잡스는 그래프로 사람들을 현혹했다. 의도적이었겠지만.
파이 그래프를 입체로 그린 뒤, Apple 비율을 맨 앞에 배치했다. 이러면 21.2%인 Other보다 19.5%인 Apple의 비율 크기가 더 커 보인다. 숫자를 보지 않고 그래프만 보면 충분히 오해할 만하지 않나?
7장 추세선 그리기
우리는 데이터의 경향을 알아보려고 추세선을 그린다. 판매 실적 추세선이 우상향하면 실적이 좋아지고 있다고 판단한다. 추세선이 항상 경향을 잘 나타내는 건 아니다. 결정계수(R²)도 함께 고려하는 게 바람직하다. 결정계수는 0~1 값을 갖는 지표인데 1에 가까울수록 추세선이 실젯값과 비슷하다고 본다. 추세선이 우상향하지만 결정계수가 0.1정도로 작다면 신뢰도가 많이 낮은 추세선이라 할 수 있다.
9장 별점의 함정
이동진 영화평론가는 영화에 별점을 줄 때 일정한 기준이 있다고 한다. 3.5개면 추천, 4개면 강추, 4.5개면 정말 좋은 작품, 5개면 자리에서 못 읽어날 만한 작품. 그런데 모든 사람이 이 기준으로 영화 평점을 매기진 않는다. 나라면 4개를 추천, 5개를 강추라고 할 것 같다. 바로 이 지점이 별점의 함정이다.
별점은 사람마다 주관적인 지표다. 객관적인 지표로써는 큰 도움이 되지 않을 우려가 있다. 별점과 같은 주관적인 만족도보다는 재구매율과 같은 실질적인 지표를 참고하는 게 더 바람직하다.
그래서 <데이터 분석가의 숫자유감>에 대한 내 평점은 별 4개다. 한 개를 뺀 이유는, 재밌고 유익해서 신나게 읽고 있는데 어느덧 마지막 페이지가 되었기 때문이다. 아쉬움이랄까. 더 다채로운 이야기로 <데이터 분석가의 숫자유감 II>가 나왔으면 하는 바람이다.
'책과 사유' 카테고리의 다른 글
[슈퇴리히] 세계 철학사 - 제2부 그리스 철학 (0) | 2021.11.14 |
---|---|
[슈퇴리히] 세계 철학사 - 제1부 동양의 지혜 (0) | 2021.10.10 |
[윌 듀런트] 위대한 사상들 (0) | 2021.10.03 |
[류시화 엮음] 마음챙김의 시 (0) | 2021.09.21 |
[수 클리볼드] 나는 가해자의 엄마입니다 (0) | 2021.09.18 |