Paper Review/NLP

[2019] MT - DNN

frances._.sb 2022. 3. 23. 16:22
728x90

[2019] MT-DNN : Multi-Task Deep Neural Networks for Natural Language Understanding

: BERT에 multi-task learning을 적용한 model

 

  • architecture

 

architecture

shared layer = BERT와 동일

 

  • muti-task learning

: 이전 task로부터 학습된 지식이 다음 task 학습을 도와 성능 향상이 이루어질 것이라 기대하는 것

 

- MTL은 related task로부터 모인 supervised data를 활용해 학습할 수 있습니다. (비교적 많은 양의 label data)

- single model로 여러 가지 task를 학습하기 때문에 regularization 효과를 줄 수 있습니다.

 

yukyunglee

 

  • model training

 ① 특정 task의 data를 mini-batch로 구성한다.

 ② shuffle D : 랜덤하게 선택된 데이터의 task로 학습한다.

 ③ 선택된 task에 맞는 loss function을 구성하여 loss를 전파한다.

 

 

  • result of experiments

  table 2,3 를 확인하여보면, MT-DNN model은 다른 models에 비해 좋은 성능을 보이고 있음을 주장하고 있습니다.

 

 위의 그래프는 새로운 task를 추가하여 나온 accuracy입니다.

 BERT는 fine-tuning, MT-DNN은 task specific layer을 추가하였을 때인데, MT-DNN은 비교적 데이터 양이 적을 때에도 꽤나 높은 성능을 보여주고 있습니다.

728x90
반응형