[2020] BART : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART - seq2 seq model을 pretrain 시키는 denoising autoencoder입니다. - bidirectional 하게 autoregressive transformer를 진행하였다는 점입니다. - 위의 그림과 같이 encoder에서는 noise input을 주고 decorder에서는 따로 하지 않았습니다. Noise 방법 다음처럼 ABC. DE. 의 두 sentence가 있다고 가정하여보겠습니다. ① token masking - 임의의 token을 [mask]로 교..