728x90

nlp 33

[2014] Seq2Seq Learning with Neural Networks

시작하기 전, 내용을 보아도 이해가 잘 안 된다면 Alamar(Attention) 페이지를 소개합니다. 시각적인 부분도 잘 설명해두었고, 더할 나위 없이 완벽하다고 볼 수 있는 내용이기에 한 번쯤 보는 것을 추천합니다. https://jalammar.github.io/ Jay Alammar – Visualizing machine learning one concept at a time. Visualizing machine learning one concept at a time. jalammar.github.io [2014] Sequence-to-sequence model Sequence-to-sequence model - model의 input에 sequence를 받는다. (words, letters, f..

Lecture Review/DSBA 2022.03.16

NNLM/Word2Vec/GloVe/FastText

고려대학교 강필성교수님 강의를 짧게 정리하였습니다. [2003] NNLM (Neural Network Language Model) Purpose : one-hot vector의 curse of dimensionality를 해결하겠다. - 각 word는 distributed word feature vector 로 표현할 수 있다. - word sequences in terms 의 probability function로 표현할 수 있다. - probability function의 parameters와 word feature vectors를 동시에 할 수 있다. Why it works? - similar roles (semantically and synthetically)에서 문장을 generalize 할 수..

Lecture Review/DSBA 2022.03.02

[2019] BigBird : Transformers for Longer Sequences

NLP 관련 논문을 읽기 위해 둘러보던 중, 수학적인 부분이 많은 논문을 보게 되었다. 논문 자체는 짧은 편이라 내용은 금방 이해하였지만 뒷부분에 부가적인 설명을 읽는데 조금 오래 걸렸다. 원리를 더 꼼꼼하게 보고 싶은 사람은 뒷부분을 읽어보기를 추천한다. BigBird의 main idea는 Graph Sparcification이다. self-attention → fully connected graph fully-connected graph → sparse random graph sparse attention mechanism은 expressivity (e.g. contectualized embedding)과 flexibility (e.g. 다양한 downstream task에 적용)의 특징을 가진다. ..

Paper Review/NLP 2022.02.28
728x90
반응형