본문 바로가기

귀퉁이 서재

검색하기
귀퉁이 서재
프로필사진 Baek Kyun Shin

  • 전체 글 보기 (259)
    • 데이터 분석 (33)
    • 머신러닝 (22)
    • 컴퓨터 비전 (14)
    • OpenCV (33)
    • 자연어 처리 (NLP) (14)
    • 논문 리뷰 (7)
    • 캐글 (Kaggle) (11)
    • 블로그 프로젝트 (17)
    • 토이(Toy) 프로젝트 (5)
    • 책과 사유 (100)
    • 회고 (3)
Guestbook
Notice
  • 소개(About)
Recent Comments
Recent Posts
Archives
Link
  • Github
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록단어 토큰화 (1)

귀퉁이 서재

NLP - 2. 텍스트 토큰화(Text Tokenization)

NLP에서 텍스트 자체를 바로 피처로 사용할 수는 없습니다. 사전에 텍스트 전처리 작업이 반드시 필요합니다. 텍스트 전처리를 위해서는 클렌징, 토큰화, 불용어 제거, 정규화 등의 작업이 필요합니다. 텍스트 전처리 첫번째 시간으로 이번 장에서는 텍스트 토큰화에 대해 알아보겠습니다. (참고로, 파이썬 머신러닝 완벽 가이드(권철민 저)와 딥 러닝을 이용한 자연어 처리 입문(유원준 저)를 요약정리한 것입니다.) 그전에 말뭉치(Corpus, 코퍼스)의 뜻에 대해 먼저 알아보겠습니다. 말뭉치를 위키피디아에서 검색하면 아래와 같이 나옵니다. 말뭉치 또는 코퍼스(Corpus)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. (Reference1) 어렵게 설명이 되어 있는데 그냥 우리가 사용..

자연어 처리 (NLP) 2020. 2. 10. 20:23
Prev 1 Next

Blog is powered by kakao / Designed by Tistory

티스토리툴바