728x90

Paper Review/NLP 5

[2020] ALBERT

[2020] ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS 본문의 논문은 ICLR 2020 paper로, 링크를 확인 해주세요. Introduction large netowrk가 SOTA를 달성하기 위한 중요한 점이라는 증거라고 언급될 때, 큰 모델을 pre-train하고 이들을 작은 모델에 distill하는 방법이 흔해졌다. 여기서 모델 크기에 대한 의문점이 생겼다 : 더 나은 NLP 모델을 가지는 것이 큰 모델을 가지는 것만큼 쉬운가? 이에 대한 대답은 어려웠다. 바로 이용 가능한 하드웨어의 메모리 제한 때문이다. 그래서 저자들은 이 문제 해결을 위해 기존 BERT architecture보다 훨씬 적은 para..

Paper Review/NLP 2023.05.09

[2022] Progressive Class Sentimantic Matching for Semi-Supervised Text Classification

해당 논문은 여기를 확인해주시면 됩니다. 위 논문은 NAACL 2022 Accepted Paper에서 확인할 수 있습니다. 본 논문은 text classification을 SSL, 즉 Semi-Supervised Learning과 결합하여, 흔히들 알고 있는 BERT를 예로 들어 쉽게 이해할 수 있습니다. Semi-Supervised Learning (SSL) - SSL은 SL(Supervised Learning)에 비해 한정적인 labeling data를 가지고 하기에 경제적이며, 접근성이 좋은 것이 특징입니다. - 또한 현재 text와 image 분야 모두에서 각광받는 학습 방법입니다. PLM (Pretrained Language Model) - 본 논문에서 SSL을 위한 PLM의 사용에 대해 언급하..

Paper Review/NLP 2022.09.19

[2019] MT - DNN

[2019] MT-DNN : Multi-Task Deep Neural Networks for Natural Language Understanding : BERT에 multi-task learning을 적용한 model architecture shared layer = BERT와 동일 muti-task learning : 이전 task로부터 학습된 지식이 다음 task 학습을 도와 성능 향상이 이루어질 것이라 기대하는 것 - MTL은 related task로부터 모인 supervised data를 활용해 학습할 수 있습니다. (비교적 많은 양의 label data) - single model로 여러 가지 task를 학습하기 때문에 regularization 효과를 줄 수 있습니다. model trainin..

Paper Review/NLP 2022.03.23

[2017] SeqGAN_Sequence Generative Adversarial Nets with Policy Gradient

본 논문은 AAAI에 2017년에 게시되었습니다. SeqGAN을 설명하기 전, 어떻게 나오게 된 모델인지 설명을 하고 진행하겠습니다. GAN (Generative Adversarial Net) - G : Generator , 생성자 (도둑) - D : discriminator, 식별자 또는 감시자 (경찰) 장단점 - 장점 : Markov Chain이 전혀 필요 없이 backpropagation만으로 학습이 된다. 특별한 inference가 필요 없다. - 단점 : D와 G는 균형 있게 향상이 되어야 한다. Limitation & how to solve ▣ generating sequences of discrete tokens - difficult to pass the gradient update from..

Paper Review/NLP 2022.03.16

[2019] BigBird : Transformers for Longer Sequences

NLP 관련 논문을 읽기 위해 둘러보던 중, 수학적인 부분이 많은 논문을 보게 되었다. 논문 자체는 짧은 편이라 내용은 금방 이해하였지만 뒷부분에 부가적인 설명을 읽는데 조금 오래 걸렸다. 원리를 더 꼼꼼하게 보고 싶은 사람은 뒷부분을 읽어보기를 추천한다. BigBird의 main idea는 Graph Sparcification이다. self-attention → fully connected graph fully-connected graph → sparse random graph sparse attention mechanism은 expressivity (e.g. contectualized embedding)과 flexibility (e.g. 다양한 downstream task에 적용)의 특징을 가진다. ..

Paper Review/NLP 2022.02.28
728x90
반응형