728x90
[2019] MT-DNN : Multi-Task Deep Neural Networks for Natural Language Understanding
: BERT에 multi-task learning을 적용한 model
- architecture
shared layer = BERT와 동일
- muti-task learning
: 이전 task로부터 학습된 지식이 다음 task 학습을 도와 성능 향상이 이루어질 것이라 기대하는 것
- MTL은 related task로부터 모인 supervised data를 활용해 학습할 수 있습니다. (비교적 많은 양의 label data)
- single model로 여러 가지 task를 학습하기 때문에 regularization 효과를 줄 수 있습니다.
- model training
① 특정 task의 data를 mini-batch로 구성한다.
② shuffle D : 랜덤하게 선택된 데이터의 task로 학습한다.
③ 선택된 task에 맞는 loss function을 구성하여 loss를 전파한다.
- result of experiments
table 2,3 를 확인하여보면, MT-DNN model은 다른 models에 비해 좋은 성능을 보이고 있음을 주장하고 있습니다.
위의 그래프는 새로운 task를 추가하여 나온 accuracy입니다.
BERT는 fine-tuning, MT-DNN은 task specific layer을 추가하였을 때인데, MT-DNN은 비교적 데이터 양이 적을 때에도 꽤나 높은 성능을 보여주고 있습니다.
728x90
반응형
'Paper Review > NLP' 카테고리의 다른 글
[2020] ALBERT (1) | 2023.05.09 |
---|---|
[2022] Progressive Class Sentimantic Matching for Semi-Supervised Text Classification (2) | 2022.09.19 |
[2017] SeqGAN_Sequence Generative Adversarial Nets with Policy Gradient (0) | 2022.03.16 |
[2019] BigBird : Transformers for Longer Sequences (0) | 2022.02.28 |