[2019] MT-DNN : Multi-Task Deep Neural Networks for Natural Language Understanding : BERT에 multi-task learning을 적용한 model architecture shared layer = BERT와 동일 muti-task learning : 이전 task로부터 학습된 지식이 다음 task 학습을 도와 성능 향상이 이루어질 것이라 기대하는 것 - MTL은 related task로부터 모인 supervised data를 활용해 학습할 수 있습니다. (비교적 많은 양의 label data) - single model로 여러 가지 task를 학습하기 때문에 regularization 효과를 줄 수 있습니다. model trainin..