본문 바로가기

귀퉁이 서재

검색하기
귀퉁이 서재
프로필사진 Baek Kyun Shin

  • 전체 글 보기 (259)
    • 데이터 분석 (33)
    • 머신러닝 (22)
    • 컴퓨터 비전 (14)
    • OpenCV (33)
    • 자연어 처리 (NLP) (14)
    • 논문 리뷰 (7)
    • 캐글 (Kaggle) (11)
    • 블로그 프로젝트 (17)
    • 토이(Toy) 프로젝트 (5)
    • 책과 사유 (100)
    • 회고 (3)
Guestbook
Notice
  • 소개(About)
Recent Comments
Recent Posts
Archives
Link
  • Github
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록BOW 벡터화 (1)

귀퉁이 서재

NLP - 6. 카운트 기반 벡터화(CountVectorizer)와 TF-IDF 벡터화

이전 장에서 BOW에 대해 알아봤고, BOW의 피처 벡터화는 카운트 기반 벡터화(CountVectorizer)와 TF-IDF(Term Frequency - Inverse Document Frequency) 기반 벡터화가 있다고 했습니다. 이번장에서는 CountVectorizer와 TF-IDF에 대해 알아보겠습니다. 이번 장 역시 파이썬 머신러닝 완벽 가이드 (권철민 저), 딥 러닝을 이용한 자연어 처리 입문(유원주 저)을 요약정리했습니다. 카운트 기반 벡터화 이전 장에서 BOW(Bag of Words) 모델에서의 피처 벡터화 수행 방법에 대해 설명했습니다. 그와 마찬가지로, 단어 피처에 값을 부여할 때, 각 문서에서 해당 단어가 나타나는 횟수, 즉 Count를 부여하는 경우를 카운트 벡터화라고 합니다. ..

자연어 처리 (NLP) 2020. 2. 15. 12:04
Prev 1 Next

Blog is powered by kakao / Designed by Tistory

티스토리툴바