[2019] XLNet : Generalized Autogressive Pretrainig for Language

Lecture Review/DSBA

frances._.sb 2022. 3. 23. 14:44

728x90

[AE와 AR]

- word sequence가 주어지면 x2를 mask 한 corrupted sequence가 주어질 것이고 이 mask 된 자리를 예측하는 것이 목적

- likelihood는 최대화하는 값을 구하는 것이다.

▶ 문제점 : [mask] token이 독립적으로 예측되기 때문에 token 사이의 dependency를 학습할 수가 없다.

fine-tuning 과정에서 [mask] token이 등장하지 않기 때문에 pre-training과 fine-tuning 사이에 discrepancy 발생하게 된다.

- word sequence가 주어지고 x1, x2, x3가 있을 때 x4의 값을 예측하는 확률이 최대가 되는 값을 구하는 것이다.

▶ 문제점 : 단일방향 정보만을 이용하여 학습이 가능하다.

→ 장점은 살리고 단점은 보완한 모델이 XLNet 입니다.

[2019] XLNet : Generalized Autogressive Pretrainig for Language

<단점 보완>

① permutation language modeling objective

: permutation 집합을 통해 다양한 sequence를 고려한 후, ar objective funcion에 대입하여 특정 token에 양방향 context를 고려할 수 있습니다.

② target-aware representation for transformer

: 새로운 objective func. 는 standard Transformer에 작동하지 않았습니다. 따라서 transformer에 XLNet의 objetive func. 을 적용하기 위해 제안된 방법입니다.

③ two-stram self-attention

: 어떤 t 시점에서 target token을 예측하기 위해 g는 t 시점 이전의 context와 target position을 이용한다. +

t 시점 이후의 token을 예측하기 위한 h는 t 시점의 context도 가지고 있어야 한다.

이 둘을 고려하여 2가지 hidden representation을 사용한 transformer구조를 제안하게 된 것이다.

728x90

[2019] BART (0)	2022.03.23
[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach (0)	2022.03.23
[2018-2019] GPT + GPT-2 (0)	2022.03.21
[2018] BERT (0)	2022.03.20
[2018] ELMo : Embedding from Language Model (0)	2022.03.18

Subeen lab