귀퉁이 서재
DATA - 6. 기술 통계학과 추측 통계학 본문
통계학의 구분
통계학은 크게 기술 통계학(Descriptive Statistics)과 추측 통계학(Inferential Statistics)으로 구분할 수 있습니다.
기술통계학에서 '기술'은 technique이 아니라 description입니다. 즉, '기술하다, 묘사하다' 할 때의 기술입니다. 기술 통계란 현재 가지고 있는 데이터를 기반으로 객관적 사실만을 나타내는 통계를 의미합니다. 반면, 추측 통계학은 현재 가지고 있는 데이터로부터 더 큰 집단의 특징을 추측하는 통계학입니다.
예를 들어보겠습니다. 5만명의 집단에서 5천 명만 조사하여 특징을 찾아냈다고 합니다. 5천 명에 데이터는 실제 가지고 있으므로 5천 명에 대한 통계는 기술 통계입니다. 하지만 5천 명으로부터 5만 명의 집단에 대한 특징을 추론(추측)했다면 이는 추측 통계입니다. 추측을 통해 얻어진 결과들이 항상 맞는 것은 아니기 때문에 어느 정도의 불확실성을 가지고 있습니다. 따라서 추측 통계학은 확률론 (probability theory)을 바탕으로 하고 있습니다. (Reference: 통계학 이론과 응용, 배도선 저)
기술 통계학
정량적 (Quantative) 데이터를 기술(description)하는 4가지 방법은 아래와 같습니다.
대표값(Center), 흩어짐 정도(Spread), 분포 형태(Shape of distribution), 극단치(Outliers)
대푯값에 대한 측정치로는 평균(Mean), 중앙값(Median), 최빈값(Mode)이 있습니다.
흩어짐에 대한 측정치로는 범위(Range), 사분위 간 범위(Interquatile Range, IQR), 분산(Variance), 표준편차(Standard Deviation)가 있습니다. 범위는 최댓값과 최솟값의 차이, IQR은 1 사분위 값과 3 사분위 값의 차이입니다. 통계치에서는 분산보다 표준편차를 주로 더 많이 씁니다.
분포 형태는 Symmetric (주로 정규분포), Right-skewed, Left-skewed 가 있습니다.
Shape | Mean vs Median | 실생활 예시 |
Symmetric | Mean = Median | 키, 몸무게 |
Right-skewed | Mean > Median | 혈중 약 농도, 전구가 꺼지는데까지 걸리는 시간 (Reference1) |
Left-skewed | Mean < Median | 은퇴 나이, 올림픽 장대 높이 뛰기 기록 (Reference2) |
추측 통계학
아래는 추측 통계학의 기본 용어입니다.
모집단(Population): 관심 있는 대상 모두의 수치적 자료
모수(Parameter): 모집단의 특징을 나타내는 양적인 측도
표본(Sample): 모집단으로부터 뽑은 부분집합
통계량(Statisctic): 표본의 특성을 나타내는 양적인 측도
결국 표본의 통계량으로부터 모집단의 모수를 추론하는 것이 목적입니다.
Data Analysis Nano Degree에서는 추측 통계학을 깊게 다루진 않는다고 합니다. 이에 대해서는 추후에 따로 정리를 하고자 합니다.
References
Reference1: Skewed Distribution: Definition, Examples
Reference2 : Real life examples of distributions with negative skewness
'데이터 분석' 카테고리의 다른 글
DATA - 8. 심슨의 역설 (0) | 2019.04.11 |
---|---|
DATA - 7. 분산과 표준편차에서 n이 아니라 n-1로 나누는 이유 (자유도) (8) | 2019.04.10 |
DATA - 5. 데이터의 종류 (양적 데이터, 질적 데이터) (2) | 2019.04.06 |
DATA - 4. 판다스 활용 Medical Appointment No-show 분석 (0) | 2019.04.06 |
DATA - 3. Data Analysis Process & Pandas Basic (2) | 2019.03.31 |