728x90

document classification 3

Document Classification (RNN)

document classification 관련 연습 코드는 여기를 확인해주세요! [2016] RNN for Multi-Task Learning ⓐ task 가 identical 하지만 datasets는 다르다. hidden layer structure은 공유하되, (task specific embedding + shared embedding) 두 가지의 embedding으로 동시에 학습시킨다. ⓑ hidden nodes는 서로 영향을 준다. ⓒ 각자의 hidden layer가 있어 m과 n에 대해 각각 수행하고, shared layer가 (m, n)을 같이 학습한다. RNN : Attention two main attention mechanisms ① Bahadanau attention : attent..

Document Classification (CNN)

document classification 관련 예시 코드는 여기를 확인해주세요. [2014] yoon-kim Input : n by k matrix representation of sentence - n : the number of words in a sentence (parameter) ▷ 짧은 문장은 zero padding을 주고 긴 문장은 trimmed - k : word embedding dimensions ▷ pre-trained word embedding vectors를 사용 ▷ vectors는 static (training 과정에서 update를 하지 않는다) or non-static (fine-tuning) - multi-channel input 가능하다. → 하나의 텐서 형태가 된다. ..

Document Classification (vector space model)

document classification 관련 예시 코드는 여기를 확인해주세요. Vector space model - A single document is transformed into a single vector : 각 문서(doc)에서 단어에 대한 p차원(본 그림에서는 5차원)인 vector로 표현하는 것이다. 여기서 자주 사용되는 DTM, Topic Models, Doc2Vec 등이 있습니다. Matrix-based Model - A document is represented as a NxP matrix ▷ N : single doc에서 단어들의 최대 수 (e.g. 512 of BERT) ▷ P : word embedding dimension (e.g. 128) : 위 그림에서 5차원의 embed..

728x90
반응형