본문 바로가기

귀퉁이 서재

검색하기
귀퉁이 서재
프로필사진 Baek Kyun Shin

  • 전체 글 보기 (259)
    • 데이터 분석 (33)
    • 머신러닝 (22)
    • 컴퓨터 비전 (14)
    • OpenCV (33)
    • 자연어 처리 (NLP) (14)
    • 논문 리뷰 (7)
    • 캐글 (Kaggle) (11)
    • 블로그 프로젝트 (17)
    • 토이(Toy) 프로젝트 (5)
    • 책과 사유 (100)
    • 회고 (3)
Guestbook
Notice
  • 소개(About)
Recent Comments
Recent Posts
Archives
Link
  • Github
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록Dirty Data (1)

귀퉁이 서재

DATA - 24. Data Wrangling (Assess Data)

이전 챕터에서 데이터 모으기에 대해 배웠습니다. 이번 챕터는 데이터 랭글링의 두번째 단계, 데이터 평가하기입니다. Gathering한 데이터를 눈으로, 코드로 평가해야 합니다. 정제하기 전 데이터는 Dirty Data, Messy Data로 구분할 수 있습니다. Dirty Data (Low Quality Data) Dirty Data는 컨텐츠(Content) 자체에 문제가 있는 데이터입니다. 다른 말로 Low Quality Data라고도 합니다. 즉 데이터가 부정확하거나, 손상되었거나, 중복된 데이터를 의미합니다. Dirty Data는 다시 아래 4가지 문제로 구분할 수 있습니다. Completeness: 모든 데이터가 채워져 있는가? - 행, 열에 Null 값이 없는지 봐야합니다. Validity: S..

데이터 분석 2019. 5. 19. 21:38
Prev 1 Next

Blog is powered by kakao / Designed by Tistory

티스토리툴바