'GPT-2' 태그의 글 목록

728x90

GPT-2 2

[2020] Language Models are Few-Shot Learners

[2020] Language Models are Few-Shot LearnersopenAI 본문의 논문은 다음 링크를 확인해 주세요. Abstract 최근 생성형 ai 모델이 많이 떠오르면서, openAI에서 보여준 ChatGPT가 선두주자로 달리고 있다. 아마 개발자들은 다들 한 번씩 사용해 봤을 거라 생각하고, 성능이 꽤나 나쁘지 않다는 점에서 자연어처리 전공자들이 많이 놀랐을 것이라 생각한다. (나 역시 마찬가지..) NLP 모델은 단어 임베딩을 학습하는 것에서 시작하여 RNN 레이어를 쌓아 문맥 벡터를 만들어내는 다양한 모델들 (ELMo, BERT, GPT, ULMFit)과 같이 트랜스포머 구조를 이용해 문맥을 표현하는 모델, 대량의 코퍼스를 이용해 학습된 모델은 fine-tuning을 통해 ..

Paper Review/Reasoning & Inference 2024.10.28

[2018-2019] GPT + GPT-2

[2018] GPT : Generative Pre-Training of a Language Model Motivation : unlabled text corpora가 많으니 generative pre-training language model을 통해 embedding vector를 찾아낸 후, 우리가 튜닝하고자 하는 task에 대해 (label 존재) fine-tuning 하면 더 도움이 될 것이다. GPT에서 제시하는 문제 - unlabeled text로부터 단어 level 이상으로 leveraging하는 것은 너무 challenging 하다. ▷ 어떠한 optimization objectives가 효과적인지 모른다. - target task에 대해 most effective way to transfe..

Lecture Review/DSBA 2022.03.21

728x90

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Subeen lab

GPT-2 2

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역