귀퉁이 서재
DATA - 26. 데이터 시각화(Data Visualization)의 중요성 본문
이번 시간에는 데이터 시각화의 중요성에 대해 알아보겠습니다. 이를 위해 Autodesk Research의 Justin Matejka, George Fitzmaurice가 쓴 Same Stats, Different Graphs:
Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing을 요약해보겠습니다. '같은 통계치, 다른 그래프'라는 제목인데 내용이 상당히 흥미로웠습니다. 이번 글에 나오는 모든 내용과 그림파일은 Same Stats, Different Graphs 논문 및 Autodesk Research 홈페이지에 기재되어 있는 것입니다.
Anscombe's Quartet
영국의 통계학자 Fransis Anscombe이 1973년 주장한 것으로 '같은 통계치를 가진 데이터라도 그래프를 그려보면 서로 다른 패턴을 가질 수 있다'는 이론입니다. 아래 그림을 보면 쉽게 이해가 될 것입니다. A를 보면 I, II, II, IV 모두 11개의 데이터가 있습니다. 4개 모두 동일한 통계치 (평균, 표준편차, 피어슨 상관계수)를 가지지만 그래프의 모양은 서로 다릅니다.
이 예시는 데이터 분석 시 데이터 시각화가 중요함을 강조하고 있습니다. 데이터 시각화의 중요성을 보여주는 아주 유명한 예시이지만, Anscombe은 이 예시를 어떻게 구했는지, 이와 유사한 새로운 데이터를 어떻게 구할지에 대해 언급하지는 않았습니다. 하지만 본 논문엔 그 방법론이 간단히 나와있습니다. 즉, '통계치는 같지만 그래프가 서로 다른 데이터를 구하는 방법'에 대해 쓴 글입니다. 논문을 읽어보면 간단한 수도코드가 나와있으니 참고하시기 바랍니다.
통계치는 같지만 그래프가 다른 데이터셋
아래의 데이터셋은 182개의 점으로 구성되어 있습니다. 모두 같은 통계치를 가지고 있습니다. (소수점 둘째자리까지) 하지만 서로 다른 그래프를 그리고 있습니다.
아래는 어떤 데이터셋이 목표하는 모양(Target shape)으로 변하는 프로세스를 보여줍니다. 총 200,000번의 시도 끝에 원하는 모양으로 변합니다. 일반 PC로는 10분 정도가 걸린다고 합니다.
Datasaurus
아래는 또 다른 예시입니다. Alberto Cairos는 Anscombe처럼 'Datasaurus'라 불리는 통계치는 같고 그래프는 다른 데이터셋을 만들었습니다. 신기하지 않나요? 그래프를 보지 않고 통계치만 보면 중요한 정보를 놓칠 수 있다는 것을 보여줍니다.
심슨의 역설
A와 C의 상관계수는 서로 같습니다. C의 전체를 보면 양의 상관계수를 가지지만 하나 하나 뜯어서 보면 음의 상관계수를 가집니다. 이는 데이터의 전체와 부분을 나누어 봤을 때 서로 반대의 결과가 나온다는 심슨의 역설입니다. (참고)
References
Reference1: Same Stats, Different Graphs by Justin Matejka and George Fitzmaurice
'데이터 분석' 카테고리의 다른 글
DATA - 28. 단변량 (Univariate) 데이터 시각화 (0) | 2019.06.14 |
---|---|
DATA - 27. 정확하고 효율적인 데이터 시각화(Data Visualization)를 위한 고려사항 (0) | 2019.06.12 |
DATA - 25. Data Wrangling (Cleaning Data) (0) | 2019.05.20 |
DATA - 24. Data Wrangling (Assess Data) (0) | 2019.05.19 |
DATA - 23. Data Wrangling (Gathering Data) II (4) | 2019.05.14 |