728x90

Transformer 3

[2018] BERT

관련 예시 코드는 여기를 확인해주세요. [2018] BERT : Bidirectional Encoder Representations from Transformer BERT - bidirectional encoder representation을 학습한다. ▷ Masekd language model (MLM) : 임의의 순서에 해당하는 (순차적으로 forward/backward를 사용하는 것이 아니라) 위치를 making 하여 이들을 예측하는 model을 만드는 것이다. ELMo 같은 경우, forward와 backward model을 따로 학습한 후, 해당 representation을 결합하였고, GPT의 경우, transformer의 decoder부분 (보고자 하는 단어의 후반 부분)을 모두 maskin..

Lecture Review/DSBA 2022.03.20

[2017] Transformer : Attention Is All You Need

여기서 사용된 자료들 또한 Alammar에 도움을 받았습니다. NLP 공부를 해본 사람이라면 꼭 한 번 이상 들었을 transformer에 대해 이야기하고자 합니다. 중요한 내용이니만큼 그림첨부가 많아 내용이 길어졌습니다. transformer의 시기 순으로 보게 될 때, Jan 16, 2013 Word2Vec Jan 2, 2014 GloVe July 15, 2016 FastText June 12, 2017 Transformer : Attention is All you need Feb 15, 2018 ELMO Oct 11, 2018 BERT [2017] Transformer - attention을 사용하는 model이면서 학습과 paralleize가 쉬운, speed를 높이고자 하는 model입니다. -..

Lecture Review/DSBA 2022.03.17

[2019] BigBird : Transformers for Longer Sequences

NLP 관련 논문을 읽기 위해 둘러보던 중, 수학적인 부분이 많은 논문을 보게 되었다. 논문 자체는 짧은 편이라 내용은 금방 이해하였지만 뒷부분에 부가적인 설명을 읽는데 조금 오래 걸렸다. 원리를 더 꼼꼼하게 보고 싶은 사람은 뒷부분을 읽어보기를 추천한다. BigBird의 main idea는 Graph Sparcification이다. self-attention → fully connected graph fully-connected graph → sparse random graph sparse attention mechanism은 expressivity (e.g. contectualized embedding)과 flexibility (e.g. 다양한 downstream task에 적용)의 특징을 가진다. ..

Paper Review/NLP 2022.02.28
728x90
반응형