목록compressed sparse row (1)
귀퉁이 서재
NLP - 7. 희소 행렬 (Sparse Matrix) - COO 형식, CSR 형식
이번 장에선 희소 행렬에 대해 알아보겠습니다. 마찬가지로 파이썬 머신러닝 완벽 가이드 (권철민 저), 딥 러닝을 이용한 자연어 처리 입문(유원주 저)을 요약정리했습니다. 이전 장에서 배웠던 CountVectorizer, TfidfVectorizer를 이용해 피처 벡터화를 하면 상당히 많은 칼럼이 생깁니다. 모든 문서에 포함된 모든 고유 단어를 피처로 만들어주기 때문입니다. 모든 문서의 단어를 피처로 만들어주면 수만 개에서 수십만 개의 단어가 만들어집니다. 이렇게 대규모의 행렬이 생기더라도 각 문서에 포함된 단어의 수는 제한적이기 때문에 행렬의 대부분의 값은 0으로 채워집니다. 이렇듯 대부분 값이 0으로 채워진 행렬을 희소 행렬(Sparse Matrix)이라고 합니다. 아래는 희소 행렬의 예시입니다. 이와..
자연어 처리 (NLP)
2020. 2. 16. 11:51