[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach
- Main Idea : BERT는 아직 Underfitted model라는 것을 발견하여 이에 대한 가장 최적화된 BERT 만들어 보는 것
① model의 학습시간 증가, batch size 키우고 train data 증가시키기
: pre-train에서 데이터 양을 늘릴수록 downstream task에서 성능이 증가하였다.
② NSP를 제거하였다.
③ longer sequence를 추가하였다. (즉, train data에서도 길이가 긴 sequence를 학습을 시켜보았다.)
④ masking pattern을 dynamic 하게 주었다.
: BERT는 pre-train 전에 masking을 진행하였는데, 학습이 진행될 때 똑같은 token이 masking 된다는 문제(bias)가 생기게 되었습니다.
∴ 그리하여 똑같은 데이터에 대해 masking을 10번 다르게 적용하여 학습하였고, input이 들어갈 때마다 masking을 하였습니다.
model 자체는 BERT와 동일하므로 구조적 변화는 전혀 없고, 타 모델 대비 성능도 높았습니다.
BERT에 대한 논문 리뷰는 여기에 링크를 달아두겠습니다. https://subeen-lab.tistory.com/25
- Result
- 위의 네 가지를 이용하여 BERT의 성능을 향상할 수 있었습니다.
- SOTA를 달성하였습니다.
: Multi-task finetuning과 같은 걸 하지 않아도 달성하였다는 점
- 설계의 중요성을 알려주었습니다.
: BERT pretraining objective는 경쟁력을 유지하고 있음을 제안하였습니다.
'Lecture Review > DSBA' 카테고리의 다른 글
[2019] T5 : text to text transformer (0) | 2022.03.23 |
---|---|
[2019] BART (0) | 2022.03.23 |
[2019] XLNet : Generalized Autogressive Pretrainig for Language (0) | 2022.03.23 |
[2018-2019] GPT + GPT-2 (0) | 2022.03.21 |
[2018] BERT (0) | 2022.03.20 |