Lecture Review/DSBA

[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach

frances._.sb 2022. 3. 23. 15:05
728x90

[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach

 

 

  • Main Idea : BERT는 아직 Underfitted model라는 것을 발견하여 이에 대한 가장 최적화된 BERT 만들어 보는 것

 

 ① model의 학습시간 증가, batch size 키우고 train data 증가시키기

    : pre-train에서 데이터 양을 늘릴수록 downstream task에서 성능이 증가하였다.

 ② NSP를 제거하였다.

 ③ longer sequence를 추가하였다. (즉, train data에서도 길이가 긴 sequence를 학습을 시켜보았다.)

 ④ masking pattern을 dynamic 하게 주었다.

   : BERT는 pre-train 전에 masking을 진행하였는데, 학습이 진행될 때 똑같은 token이 masking 된다는 문제(bias)가 생기게 되었습니다. 

 ∴ 그리하여 똑같은 데이터에 대해 masking을 10번 다르게 적용하여 학습하였고, input이 들어갈 때마다 masking을 하였습니다.

 model 자체는 BERT와 동일하므로 구조적 변화는 전혀 없고, 타 모델 대비 성능도 높았습니다.

 

 

 

BERT에 대한 논문 리뷰는 여기에 링크를 달아두겠습니다.  https://subeen-lab.tistory.com/25

 

[2018] BERT

[2018] BERT : Bidirectional Encoder Representations from Transformer BERT - bidirectional encoder representation을 학습한다. ▷ Masekd language model (MLM) : 임의의 순서에 해당하는 (순차적으로 forwa..

subeen-lab.tistory.com

 

 

  • Result

- 위의 네 가지를 이용하여 BERT의 성능을 향상할 수 있었습니다.

- SOTA를 달성하였습니다.

  : Multi-task finetuning과 같은 걸 하지 않아도 달성하였다는 점

- 설계의 중요성을 알려주었습니다.

  : BERT pretraining objective는 경쟁력을 유지하고 있음을 제안하였습니다.

 

728x90
반응형

'Lecture Review > DSBA' 카테고리의 다른 글

[2019] T5 : text to text transformer  (0) 2022.03.23
[2019] BART  (0) 2022.03.23
[2019] XLNet : Generalized Autogressive Pretrainig for Language  (0) 2022.03.23
[2018-2019] GPT + GPT-2  (0) 2022.03.21
[2018] BERT  (0) 2022.03.20