728x90

전체 글 131

Neural Collaborative Filtering (NCF)

[2017] Neural Collaborative Filtering Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, Tat-Seng Chua 본문의 논문은 ICER paper로, 링크를 확인해 주세요. Introduction 추천 시스템은 이전에도 궁금하여 다루어 보았던 내용으로, collaborative filtering기법에서 가장 대표적으로 많이 사용되는 matrix factorization (MF)이 있다. 이는 유저 또는 아이템의 잠재적 특성을 가진 벡터를 사용하여 곱하여 계산하는 방식이다. 즉, 아이템에 대한 사용자의 상호작용을 내적을 이용하여 모델링한 것이다. 추천 시스템에 적용되는 가장 유명한 것으로 넷플릭스를 뽑을 수 있다. 이는..

KG graph with ESG data

앞선 실험을 엎은 후, 새로운 아이디어를 찾던 중, 원래 graph와 recommendation system에 관심이 있어 고민을 하였다. 왜냐.. 공부도 새로 시작해서 알아봐야 했고, 일단 어려웠기 때문이다. 그러던 중, KG로 맘을 굳히고 공부를 해보기로 하였다. 문장이 clustering이 되어서 저런 식의 이쁜 그래프를 만들기를 원했다. 포부도 좋았고, 이게 된다면 석사 한 학기만에 졸업 논문은 끝..이라고 생각할 정도로 맘에 들었다. 하지만, 물론 나는 쉽게 생각했던 것이었으며... 결과는 꽤나 참담(?)했다. 일단 한국어 triplet을 만드는 것부터 어려웠다. 여러 손 쉬운 방법도 사용해 보고, 끝이 보이지 않을 rule-based도 사용해 보았지만 한국어 triplet은 너무 어려운 것....

N label classification with ESG data

연구실 자체 데이터로, esg를 주제로 한 데이터셋을 구축하였다. 대략 6 ~ 12 개월 동안 데이터 수집 및 전처리, 그리고 라벨링을 한 것이다. 데이터는 우리나라 대기업에서 발간한 esg 보고서를 사용하였고, 금융, 자동차, 전자, 중공업, 항공 다섯 가지 섹션으로 나뉘며 전체 데이터의 수는 약 10만 개다. 여러 명이 함께 머리를 대고 직접 내용을 읽어보며, k-esg 가이드라인의 내용과 일치하는지 확인하며 라벨링을 하였다. 이를 바탕으로 KoBERT를 사용하여 분류 성능을 보았고, 5 class의 분류 성능이 거의 85%에 가깝게 좋은 결과를 보였다. 이와 관련된 논문은 다음을 확인하면 된다. 여기에 이어 esg project를 수행하기 위해 데이터를 알고 어떻게 사용되면 좋을지 공부하면서 개인적..

[2020] ALBERT

[2020] ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS 본문의 논문은 ICLR 2020 paper로, 링크를 확인 해주세요. Introduction large netowrk가 SOTA를 달성하기 위한 중요한 점이라는 증거라고 언급될 때, 큰 모델을 pre-train하고 이들을 작은 모델에 distill하는 방법이 흔해졌다. 여기서 모델 크기에 대한 의문점이 생겼다 : 더 나은 NLP 모델을 가지는 것이 큰 모델을 가지는 것만큼 쉬운가? 이에 대한 대답은 어려웠다. 바로 이용 가능한 하드웨어의 메모리 제한 때문이다. 그래서 저자들은 이 문제 해결을 위해 기존 BERT architecture보다 훨씬 적은 para..

Paper Review/NLP 2023.05.09

[2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning

[2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning Wangchunshu Zhou1, Canwen Xu, Julian McAuley 본문의 논문 ACL 2022로, 링크를 확인해 주세요. Abstract training 중에 teacher 모델이 고정되는 전통적 지식 증류(KD) 방법에 대한 간단하면서도 효과적인 대안인 메타 학습을 통한 지식 증류(MetaDistil)를 제안한다. teacher network가 meta-learning framework에서 증류된 student network의 성능에서 피드백을 얻어 student network에 더 나은 지식 전달을 학습할 수 있다. 다시 말해, 이 부분이 learning to ..

Knowledge Distillation

"BERT learns to teach" 라는 논문을 읽기 시작하는데, 처음 보는 내용이 많아 공부할 겸 정리하도록 하겠다. Knowledge Distillation - 직역하면 지식 증류이며, 복잡한 모델을 간단하게 사용할 수 있게 증류하는 것 - 복잡한 딥러닝 모델을 경량화된 디바이스에서 사용할 때 보다 낮은 메모리를 사용하면서, 정확도는 어느 수준 이상인 모델이 필요 - 많은 수의 파라미터를 가지고 있는 복잡한 딥러닝 모델 (teacher model)에서 지식을 경량화 모델 (student model)에 전달하는 방식 - 높은 정확도를 가지는 딥러닝 모델을 이용하여, teacher 모델의 loss function과 student model의 loss function을 결합한 distillation ..

[2017] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

[2017] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn , Pieter Abbeel , Sergey Levine 본문의 논문은 PMLR paper로, 링크를 확인해 주세요. Introduction Meta-learning은 learn-to-learn 방식으로, 작은 예제들로 이전의 경험을 바탕으로 새로운 task를 학습하는 방법이다. fast 학습과 새로운 것에 대한 fast adaption은 인간의 지능을 보여주는 인증 같은 것입니다. 물론 이런 것들이 우리가 만들 인공지능에도 adaption이 된다면 가장 좋을 것이다. 작은 양으로도 학습할 수 있고 그로 인해 overfitting을 피할 수 있게 하는,..

On-policy vs Off-policy

On-policy On policy는 behavior policy와 target policy가 같다. 즉, 현재 행동하는 policy를 그대로 update 할 목적으로 환경을 탐색한다. 현재 policy를 통해 얻은 trajectories(궤적)를 가지고 policy를 update를 하기 때문에 얻어지는 상태 분포 자체가 현재 policy에 의존적이게 된다. 그렇기 때문에, data dependent 한다. 이는 local optimal에 수렴할 수 있는 가능성을 만든다. 또한 한번 policy를 update 한 후, 그 이전의 trajectories는 현재의 policy와 다르기 때문에 더 이상 쓸 수 없다. 하지만 주로 update 할 action selection이 stochastic 하기 때문에,..

[2023] Deep Bidirectional Language-Knowledge Graph Pretraining

[2023] Deep Bidirectional Language-Knowledge Graph Pretraining Michihiro Yasunaga, Antoine Bosselut, Hongyu Ren, Xikun Zhang, Christopher D Manning, Percy Liang, Jure Leskovec 본문의 논문은 aaai 2023 workshop paper로, 링크를 확인해 주세요. Abstract 저자들의 제안 모델인 DRAGON (Deep Bidirectional Language-Knowledge Graph Pretraining) 은 MLM 과 KG의 linke prediction, 두 가지의 self-supervised reasoning task를 통합한 언어-지식 설립 모델을 사전훈..

[2023] Knowledge Relevance BERT

[2023] Knowledge Relevance BERT: Integrating Noisy Knowledge into Language Representations Karan Samel, Jun Ma, Zhengyang Wang, Tong Zhao, Irfan Essa 본문의 논문은 AAAI 2023 Work Shop Accepted paper로, 여기를 확인해 주세요. Introduction 저자들은 BERT를 이용한 새로운 domain에서 데이터를 수집할 수 있는 모델을 만들고자 하였다. 저자들이 사용할 데이터, 실세계에서의 e-commerce 데이터의 양이 적고 새로운 domain이기에 어려움이 있다고 첫 번째로 언급하고, 두 번째로, 추출한 지식들(knowledges)의 noise에 대해 이야기한다..

728x90
반응형