목록Assess Data (1)
귀퉁이 서재
DATA - 24. Data Wrangling (Assess Data)
이전 챕터에서 데이터 모으기에 대해 배웠습니다. 이번 챕터는 데이터 랭글링의 두번째 단계, 데이터 평가하기입니다. Gathering한 데이터를 눈으로, 코드로 평가해야 합니다. 정제하기 전 데이터는 Dirty Data, Messy Data로 구분할 수 있습니다. Dirty Data (Low Quality Data) Dirty Data는 컨텐츠(Content) 자체에 문제가 있는 데이터입니다. 다른 말로 Low Quality Data라고도 합니다. 즉 데이터가 부정확하거나, 손상되었거나, 중복된 데이터를 의미합니다. Dirty Data는 다시 아래 4가지 문제로 구분할 수 있습니다. Completeness: 모든 데이터가 채워져 있는가? - 행, 열에 Null 값이 없는지 봐야합니다. Validity: S..
데이터 분석
2019. 5. 19. 21:38