728x90

Paper Review 34

Capsule Network

zero shot에 관한 논문을 보던 중, capsule network를 처음 접하게 되었다. 관련 자료를 찾아보며 짧게 이해할 수 있도록 정리하였다. Capsule Network - capsule network : CNN에서 pooling의 문제(max, average..)를 극복할 수 있게 만들어졌다. pooling 문제의 예시로는 max pooling이 있다. max pooling은 pooling 시 가장 큰 값만 사용하므로, 가치있는 정보를 잃어버리는 문제가 있다. - Neuroscience에서 영감을 얻어 인간의 뇌와 같은 module을 가진다. - Image rotation 문제를 해결하기 위해, 위치, 색상, 크기, 방향, 속도, 텍스쳐 등의 dynamic한 방법을 이용하였다. 기존의 CNN..

[2019] MT - DNN

[2019] MT-DNN : Multi-Task Deep Neural Networks for Natural Language Understanding : BERT에 multi-task learning을 적용한 model architecture shared layer = BERT와 동일 muti-task learning : 이전 task로부터 학습된 지식이 다음 task 학습을 도와 성능 향상이 이루어질 것이라 기대하는 것 - MTL은 related task로부터 모인 supervised data를 활용해 학습할 수 있습니다. (비교적 많은 양의 label data) - single model로 여러 가지 task를 학습하기 때문에 regularization 효과를 줄 수 있습니다. model trainin..

Paper Review/NLP 2022.03.23

[2017] SeqGAN_Sequence Generative Adversarial Nets with Policy Gradient

본 논문은 AAAI에 2017년에 게시되었습니다. SeqGAN을 설명하기 전, 어떻게 나오게 된 모델인지 설명을 하고 진행하겠습니다. GAN (Generative Adversarial Net) - G : Generator , 생성자 (도둑) - D : discriminator, 식별자 또는 감시자 (경찰) 장단점 - 장점 : Markov Chain이 전혀 필요 없이 backpropagation만으로 학습이 된다. 특별한 inference가 필요 없다. - 단점 : D와 G는 균형 있게 향상이 되어야 한다. Limitation & how to solve ▣ generating sequences of discrete tokens - difficult to pass the gradient update from..

Paper Review/NLP 2022.03.16

[2019] BigBird : Transformers for Longer Sequences

NLP 관련 논문을 읽기 위해 둘러보던 중, 수학적인 부분이 많은 논문을 보게 되었다. 논문 자체는 짧은 편이라 내용은 금방 이해하였지만 뒷부분에 부가적인 설명을 읽는데 조금 오래 걸렸다. 원리를 더 꼼꼼하게 보고 싶은 사람은 뒷부분을 읽어보기를 추천한다. BigBird의 main idea는 Graph Sparcification이다. self-attention → fully connected graph fully-connected graph → sparse random graph sparse attention mechanism은 expressivity (e.g. contectualized embedding)과 flexibility (e.g. 다양한 downstream task에 적용)의 특징을 가진다. ..

Paper Review/NLP 2022.02.28
728x90
반응형