본문 바로가기

귀퉁이 서재

검색하기
귀퉁이 서재
프로필사진 Baek Kyun Shin

  • 전체 글 보기 (259)
    • 데이터 분석 (33)
    • 머신러닝 (22)
    • 컴퓨터 비전 (14)
    • OpenCV (33)
    • 자연어 처리 (NLP) (14)
    • 논문 리뷰 (7)
    • 캐글 (Kaggle) (11)
    • 블로그 프로젝트 (17)
    • 토이(Toy) 프로젝트 (5)
    • 책과 사유 (100)
    • 회고 (3)
Guestbook
Notice
  • 소개(About)
Recent Comments
Recent Posts
Archives
Link
  • Github
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록한국어 stop word (1)

귀퉁이 서재

NLP - 3. 불용어(Stop word) 제거

텍스트 전처리 두 번째 주제는 불용어(Stop word) 제거입니다. 불용어(Stop word)는 분석에 큰 의미가 없는 단어를 지칭합니다. 예를 들어 the, a, an, is, I, my 등과 같이 문장을 구성하는 필수 요소지만 문맥적으로 큰 의미가 없는 단어가 이에 속합니다. 이런 불용어는 텍스트에 빈번하게 나타나기 때문에 중요한 단어로 인지될 수 있습니다. 하지만 실질적으로는 중요한 단어가 아니므로 사전에 제거해줘야 합니다. 이전과 마찬가지로 파이썬 머신러닝 완벽 가이드 (권철민 저), 딥 러닝을 이용한 자연어 처리 입문 (유원주 저)을 요약정리했습니다. 불용어 확인하기 import nltk nltk.download('stopwords') print('영어 불용어 갯수:',len(nltk.corp..

자연어 처리 (NLP) 2020. 2. 11. 22:24
Prev 1 Next

Blog is powered by kakao / Designed by Tistory

티스토리툴바