728x90

Bert 6

[2020] ALBERT

[2020] ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS 본문의 논문은 ICLR 2020 paper로, 링크를 확인 해주세요. Introduction large netowrk가 SOTA를 달성하기 위한 중요한 점이라는 증거라고 언급될 때, 큰 모델을 pre-train하고 이들을 작은 모델에 distill하는 방법이 흔해졌다. 여기서 모델 크기에 대한 의문점이 생겼다 : 더 나은 NLP 모델을 가지는 것이 큰 모델을 가지는 것만큼 쉬운가? 이에 대한 대답은 어려웠다. 바로 이용 가능한 하드웨어의 메모리 제한 때문이다. 그래서 저자들은 이 문제 해결을 위해 기존 BERT architecture보다 훨씬 적은 para..

Paper Review/NLP 2023.05.09

[2022] Progressive Class Sentimantic Matching for Semi-Supervised Text Classification

해당 논문은 여기를 확인해주시면 됩니다. 위 논문은 NAACL 2022 Accepted Paper에서 확인할 수 있습니다. 본 논문은 text classification을 SSL, 즉 Semi-Supervised Learning과 결합하여, 흔히들 알고 있는 BERT를 예로 들어 쉽게 이해할 수 있습니다. Semi-Supervised Learning (SSL) - SSL은 SL(Supervised Learning)에 비해 한정적인 labeling data를 가지고 하기에 경제적이며, 접근성이 좋은 것이 특징입니다. - 또한 현재 text와 image 분야 모두에서 각광받는 학습 방법입니다. PLM (Pretrained Language Model) - 본 논문에서 SSL을 위한 PLM의 사용에 대해 언급하..

Paper Review/NLP 2022.09.19

[2019] MT - DNN

[2019] MT-DNN : Multi-Task Deep Neural Networks for Natural Language Understanding : BERT에 multi-task learning을 적용한 model architecture shared layer = BERT와 동일 muti-task learning : 이전 task로부터 학습된 지식이 다음 task 학습을 도와 성능 향상이 이루어질 것이라 기대하는 것 - MTL은 related task로부터 모인 supervised data를 활용해 학습할 수 있습니다. (비교적 많은 양의 label data) - single model로 여러 가지 task를 학습하기 때문에 regularization 효과를 줄 수 있습니다. model trainin..

Paper Review/NLP 2022.03.23

[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach

[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach Main Idea : BERT는 아직 Underfitted model라는 것을 발견하여 이에 대한 가장 최적화된 BERT 만들어 보는 것 ① model의 학습시간 증가, batch size 키우고 train data 증가시키기 : pre-train에서 데이터 양을 늘릴수록 downstream task에서 성능이 증가하였다. ② NSP를 제거하였다. ③ longer sequence를 추가하였다. (즉, train data에서도 길이가 긴 sequence를 학습을 시켜보았다.) ④ masking pattern을 dynamic 하게 주었다. : BERT는 pre-train 전에 masking을 진..

Lecture Review/DSBA 2022.03.23

[2018] BERT

관련 예시 코드는 여기를 확인해주세요. [2018] BERT : Bidirectional Encoder Representations from Transformer BERT - bidirectional encoder representation을 학습한다. ▷ Masekd language model (MLM) : 임의의 순서에 해당하는 (순차적으로 forward/backward를 사용하는 것이 아니라) 위치를 making 하여 이들을 예측하는 model을 만드는 것이다. ELMo 같은 경우, forward와 backward model을 따로 학습한 후, 해당 representation을 결합하였고, GPT의 경우, transformer의 decoder부분 (보고자 하는 단어의 후반 부분)을 모두 maskin..

Lecture Review/DSBA 2022.03.20

[2019] BigBird : Transformers for Longer Sequences

NLP 관련 논문을 읽기 위해 둘러보던 중, 수학적인 부분이 많은 논문을 보게 되었다. 논문 자체는 짧은 편이라 내용은 금방 이해하였지만 뒷부분에 부가적인 설명을 읽는데 조금 오래 걸렸다. 원리를 더 꼼꼼하게 보고 싶은 사람은 뒷부분을 읽어보기를 추천한다. BigBird의 main idea는 Graph Sparcification이다. self-attention → fully connected graph fully-connected graph → sparse random graph sparse attention mechanism은 expressivity (e.g. contectualized embedding)과 flexibility (e.g. 다양한 downstream task에 적용)의 특징을 가진다. ..

Paper Review/NLP 2022.02.28
728x90
반응형