귀퉁이 서재

DATA - 27. 정확하고 효율적인 데이터 시각화(Data Visualization)를 위한 고려사항 본문

데이터 분석

DATA - 27. 정확하고 효율적인 데이터 시각화(Data Visualization)를 위한 고려사항

Baek Kyun Shin 2019. 6. 12. 19:44

데이터 시각화를 정확하고 효율적으로 하기 위해서는 Chart Junk, Data Ink Ratio, Lie factor를 고려해야 합니다.

Chart Junk

Chart Junk란 그래프상의 정보를 이해하는데 굳이 필요하지 않은 것을 의미합니다. 두껍고 진한 격자, 불필요한 글귀, 불필요한 그림, 3D 그래프나 그림자, 화려한 축의 장식 등이 이에 해당합니다. 그래프의 목적은 정보를 한눈에 파악하기 위함입니다. 앞서 말한 5가지 요소들(Chart Junk)은 정보를 한눈에 파악하는데 방해가 될 뿐입니다. 그래프는 최대한 깔끔하게 그려줘야 합니다.

출처: Udacity

Data Ink Ratio

Data Ink Ration를 구하는 식은 아래와 같습니다.

Data Ink Ratio = 데이터를 기술하는 데 쓰인 잉크의 양 / 전체 그래프를 그리는 데 쓰인 총 잉크의 양

Data Ink Ratio의 값이 클수록 좋은 그래프입니다. 데이터를 기술하고 표현하는데에만 잉크를 주로 썼다는 뜻이기 때문입니다. 반면, Data Ink Ratio가 작다면 그래프에 Chart Junk가 많다는 뜻입니다. 정보를 전달하는데 잉크를 쓰지 않고 화려하게 장식하는데 잉크를 낭비했다는 뜻이기 때문입니다. 아래 두 그래프를 보겠습니다.

출처: Udacity

왼쪽은 Data Ink Ratio가 낮은 그래프입니다. 3D 그래프, 과한 색상, 쓸데없는 배경 및 격자, 두껍고 진한 X축과 Y축 등 Chart Junk 요소가 많습니다. 이런 과한 그래프는 정보 파악에 도움이 되지 않는 것을 넘어 오히려 방해합니다. 오른쪽은 Chart Junk 요소를 최대한 제거한 그래프입니다. Data Ink Ratio가 높은 그래프입니다. 깔끔하게 원하는 정보를 얻을 수 있습니다.

Data Ink Ratio와 Chart Junk는 서로 연관 관계가 있습니다. Chart Junk를 줄이면 줄일수록 Data Ink Ratio 값은 커집니다.

Lie Factor

Lie Factor란 실제 데이터보다 과장되게 그래프를 그리는 정도를 의미합니다. lie factor 식은 아래와 같습니다.

출처: Udacity

아래 예시를 보며 설명하겠습니다.

출처: Udacity

다른 것은 보지말고 맨 오른쪽과 맨 왼쪽 의사 그림의 크기와 12%, 27%만 보겠습니다. 이 그래프가 표현하고자 한 것은 1990년 12%인 수치가 1964년엔 27%였다는 것입니다. 그러면 맨 오른쪽 의사보다 맨 왼쪽 의사가 2.25배 커야 하는데 실제로는 그보다 훨씬 큽니다. (왼쪽 의사 pixel: 79,000, 오른쪽 의사 pixel: 16,500) 이때, 실제 데이터와 시각적 데이터의 차이를 통해 lie factor를 구할 수 있습니다.

lie factor = { ( 시각 데이터 차이 ) / 시각 데이터 초기 수치 } / { ( 실제 데이터 차이 ) / 실제 데이터 초기 수치 } 입니다.

lie factor가 3.03이라는 것은 실제 데이터보다 3.03배 과장해서 그래프를 그렸다는 뜻입니다. lie factor가 1이어야 정확한 그래프가 됩니다.

아래는 스티브 잡스의 프레젠테이션 장면입니다. 스티브 잡스의 그래프에는 몇 가지 문제가 있습니다. 우선 그래프를 3D로 만든 뒤 Apple(19.5%)를 맨 앞에 두었습니다. 이는 디자인 무결성을 해치는 일입니다. 사실 의도적으로 그랬겠지만요. 3D로 그래프를 표현함으로써 뒤에 있는 Other (21.2%)보다 앞에 있는 Apple (19.5%)의 크기가 더 커 보이게 만들었습니다. pie chart를 bar chart로 바꾸고 (크기 비교를 위해서는 pie chart보다는 bar chart가 적당합니다. (Reference1)) 색깔을 과도하게 많이 사용하지 않았다면 데이터를 더 정확하게 전달하는 그래프가 되었을 것입니다. 스티브 잡스가 이것을 몰랐을 리는 없고, 의도적으로 했을 겁니다.

출처: Udacity

Reference

Reference1: What to consider when creating pie charts

Comments