728x90

meta-learning 4

[2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning

[2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning Wangchunshu Zhou1, Canwen Xu, Julian McAuley 본문의 논문 ACL 2022로, 링크를 확인해 주세요. Abstract training 중에 teacher 모델이 고정되는 전통적 지식 증류(KD) 방법에 대한 간단하면서도 효과적인 대안인 메타 학습을 통한 지식 증류(MetaDistil)를 제안한다. teacher network가 meta-learning framework에서 증류된 student network의 성능에서 피드백을 얻어 student network에 더 나은 지식 전달을 학습할 수 있다. 다시 말해, 이 부분이 learning to ..

Knowledge Distillation

"BERT learns to teach" 라는 논문을 읽기 시작하는데, 처음 보는 내용이 많아 공부할 겸 정리하도록 하겠다. Knowledge Distillation - 직역하면 지식 증류이며, 복잡한 모델을 간단하게 사용할 수 있게 증류하는 것 - 복잡한 딥러닝 모델을 경량화된 디바이스에서 사용할 때 보다 낮은 메모리를 사용하면서, 정확도는 어느 수준 이상인 모델이 필요 - 많은 수의 파라미터를 가지고 있는 복잡한 딥러닝 모델 (teacher model)에서 지식을 경량화 모델 (student model)에 전달하는 방식 - 높은 정확도를 가지는 딥러닝 모델을 이용하여, teacher 모델의 loss function과 student model의 loss function을 결합한 distillation ..

[2017] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

[2017] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn , Pieter Abbeel , Sergey Levine 본문의 논문은 PMLR paper로, 링크를 확인해 주세요. Introduction Meta-learning은 learn-to-learn 방식으로, 작은 예제들로 이전의 경험을 바탕으로 새로운 task를 학습하는 방법이다. fast 학습과 새로운 것에 대한 fast adaption은 인간의 지능을 보여주는 인증 같은 것입니다. 물론 이런 것들이 우리가 만들 인공지능에도 adaption이 된다면 가장 좋을 것이다. 작은 양으로도 학습할 수 있고 그로 인해 overfitting을 피할 수 있게 하는,..

On-policy vs Off-policy

On-policy On policy는 behavior policy와 target policy가 같다. 즉, 현재 행동하는 policy를 그대로 update 할 목적으로 환경을 탐색한다. 현재 policy를 통해 얻은 trajectories(궤적)를 가지고 policy를 update를 하기 때문에 얻어지는 상태 분포 자체가 현재 policy에 의존적이게 된다. 그렇기 때문에, data dependent 한다. 이는 local optimal에 수렴할 수 있는 가능성을 만든다. 또한 한번 policy를 update 한 후, 그 이전의 trajectories는 현재의 policy와 다르기 때문에 더 이상 쓸 수 없다. 하지만 주로 update 할 action selection이 stochastic 하기 때문에,..

728x90
반응형