귀퉁이 서재

DATA - 5. 데이터의 종류 (양적 데이터, 질적 데이터) 본문

데이터 분석

DATA - 5. 데이터의 종류 (양적 데이터, 질적 데이터)

Baek Kyun Shin 2019. 4. 6. 22:54

양적 데이터 (Quantitative, Numeric)
: 수학 연산을 할 수 있는 수치 값

질적 데이터 (Qualitative, Categorical)
:범주로 나누어지는 값

연속형 (Continuos) ex) 키, 나이, 수입 순서형 (Ordinal) Grade, 순위(랭킹)
이산형 (Discrete) ex) 사과의 갯수, 책의 페이지 수 명목형 (Nominal) 성별, 뷔페의 음식 메뉴, 우편 번호

양적 데이터는 수학 연산 (덧셈, 뺄셈, 곱셈, 나눗셈 등)을 할 수 있는 데이터를 의미합니다. 양적 데이터는 다시 연속형 데이터와 이산형 데이터로 나뉩니다. 연속형 데이터는 데이터의 수치(값)가 연속되어 있는 데이터를 의미합니다. '키'를 예로 들면 170cm와 171cm 사이에는 무한히 많은 값이 존재합니다. 170.1cm, 170.231cm, 170.99999cm 등 무한한 값이 존재합니다. 즉, 데이터가 끊기지 않고 연속되어 있다는 뜻입니다. 반면 이산형 데이터는 연속된 값이 아닙니다. 하나, 둘, 셋 셀 수 있습니다. 사과의 개수는 3개, 4개로 딱 떨어집니다. 책의 페이지도 마찬가지입니다. 200 페이지면 200 페이지이지 200.5 페이지라는 것은 없습니다. 쉽게, 연속형 데이터는 실수형(float)로 표현이 가능한 것, 이산형은 정수형(int)으로 표현이 가능한 것이라고 봐도 좋습니다.

질적 데이터는 범주형 데이터라고도 합니다. 수학 연산이 가능하지 않은 범주로 나누어지는 데이터를 뜻합니다. 이는 순서형과 명목형으로 나뉩니다. 순서형은 Grade와 같이 A+, A0, A-, B+, B0 등 순서가 정해져 있는 데이터를 의미합니다. 정성적 데이터는 정량적 데이터와 다르게 수학 연산이 불가하다 했습니다. A0와 A-를 더한다고 A+가 되지 않습니다. 각 값들간 사칙연산은 무의미합니다. 명목형 데이터는 순위가 따로 없는 데이터를 뜻합니다. 대표적인 명목형 데이터는 성별이 있습니다. '남'과 '여'는 순서도 없으며 둘 간의 사칙 연산도 가능하지 않습니다.

여기서 주의할 점은 양적 데이터를 수치 데이터, 질적 데이터를 수치가 아닌 데이터로 잘 못 생각하는 경우가 있다는 것입니다. 정성적 데이터의 명목형을 보면 우편 번호도 있습니다. 우편 번호는 수치 데이터이지만 우리집 우편 번호와 옆 집 우편 번호를 더한다고 해서 의미 있는 값이 나오지 않습니다. 따라서 수치형 데이터라고 모두 양적 데이터는 아닙니다. 

Comments