728x90

GPT 3

[2020] Language Models are Few-Shot Learners

[2020] Language Models are Few-Shot LearnersopenAI 본문의 논문은 다음 링크를 확인해 주세요.  Abstract  최근 생성형 ai 모델이 많이 떠오르면서, openAI에서 보여준 ChatGPT가 선두주자로 달리고 있다. 아마 개발자들은 다들 한 번씩 사용해 봤을 거라 생각하고, 성능이 꽤나 나쁘지 않다는 점에서 자연어처리 전공자들이 많이 놀랐을 것이라 생각한다. (나 역시 마찬가지..) NLP 모델은 단어 임베딩을 학습하는 것에서 시작하여 RNN 레이어를 쌓아 문맥 벡터를 만들어내는 다양한 모델들 (ELMo, BERT, GPT, ULMFit)과 같이 트랜스포머 구조를 이용해 문맥을 표현하는 모델, 대량의 코퍼스를 이용해 학습된 모델은 fine-tuning을 통해 ..

[2018-2019] GPT + GPT-2

[2018] GPT : Generative Pre-Training of a Language Model Motivation : unlabled text corpora가 많으니 generative pre-training language model을 통해 embedding vector를 찾아낸 후, 우리가 튜닝하고자 하는 task에 대해 (label 존재) fine-tuning 하면 더 도움이 될 것이다. GPT에서 제시하는 문제 - unlabeled text로부터 단어 level 이상으로 leveraging하는 것은 너무 challenging 하다. ▷ 어떠한 optimization objectives가 효과적인지 모른다. - target task에 대해 most effective way to transfe..

Lecture Review/DSBA 2022.03.21

[2019] BigBird : Transformers for Longer Sequences

NLP 관련 논문을 읽기 위해 둘러보던 중, 수학적인 부분이 많은 논문을 보게 되었다. 논문 자체는 짧은 편이라 내용은 금방 이해하였지만 뒷부분에 부가적인 설명을 읽는데 조금 오래 걸렸다. 원리를 더 꼼꼼하게 보고 싶은 사람은 뒷부분을 읽어보기를 추천한다. BigBird의 main idea는 Graph Sparcification이다. self-attention → fully connected graph fully-connected graph → sparse random graph sparse attention mechanism은 expressivity (e.g. contectualized embedding)과 flexibility (e.g. 다양한 downstream task에 적용)의 특징을 가진다. ..

Paper Review/NLP 2022.02.28
728x90
반응형