목록word tokenization (1)
귀퉁이 서재
NLP - 2. 텍스트 토큰화(Text Tokenization)
NLP에서 텍스트 자체를 바로 피처로 사용할 수는 없습니다. 사전에 텍스트 전처리 작업이 반드시 필요합니다. 텍스트 전처리를 위해서는 클렌징, 토큰화, 불용어 제거, 정규화 등의 작업이 필요합니다. 텍스트 전처리 첫번째 시간으로 이번 장에서는 텍스트 토큰화에 대해 알아보겠습니다. (참고로, 파이썬 머신러닝 완벽 가이드(권철민 저)와 딥 러닝을 이용한 자연어 처리 입문(유원준 저)를 요약정리한 것입니다.) 그전에 말뭉치(Corpus, 코퍼스)의 뜻에 대해 먼저 알아보겠습니다. 말뭉치를 위키피디아에서 검색하면 아래와 같이 나옵니다. 말뭉치 또는 코퍼스(Corpus)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. (Reference1) 어렵게 설명이 되어 있는데 그냥 우리가 사용..
자연어 처리 (NLP)
2020. 2. 10. 20:23