github 확인해보기 2.1 말뭉치, 토큰, 타입 - 말뭉치(corpus) : 원시 텍스트(ASCII나 UTF-8)와 이 텍스트에 관련된 메타데이터 - 토큰(token) : 일반적으로 문자를 연속된 단위로 묶음 - 샘플 / 데이터 포인트 : 메타데이터가 붙은 텍스트 - 토큰화(tokenization) : 텍스트를 토큰으로 나누는 과정 - 타입(type) : corpus에 등장하는 고유한 token ※ 특성공학 (feature engineering) : 언어학을 이해하고 NLP 문제 해결에 적용하는 과정 2.2 유니그램, 바이그램, 트라이그램, ... , n-그램 N-그램 : 텍스트에 있는 고정 길이(n)의 연속된 token sequence - unigram : 토큰 한 개, bigram : 토큰 두 개..