728x90

전체 글 129

N label classification with ESG data

연구실 자체 데이터로, esg를 주제로 한 데이터셋을 구축하였다. 대략 6 ~ 12 개월 동안 데이터 수집 및 전처리, 그리고 라벨링을 한 것이다. 데이터는 우리나라 대기업에서 발간한 esg 보고서를 사용하였고, 금융, 자동차, 전자, 중공업, 항공 다섯 가지 섹션으로 나뉘며 전체 데이터의 수는 약 10만 개다. 여러 명이 함께 머리를 대고 직접 내용을 읽어보며, k-esg 가이드라인의 내용과 일치하는지 확인하며 라벨링을 하였다. 이를 바탕으로 KoBERT를 사용하여 분류 성능을 보았고, 5 class의 분류 성능이 거의 85%에 가깝게 좋은 결과를 보였다. 이와 관련된 논문은 다음을 확인하면 된다. 여기에 이어 esg project를 수행하기 위해 데이터를 알고 어떻게 사용되면 좋을지 공부하면서 개인적..

[2020] ALBERT

[2020] ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS 본문의 논문은 ICLR 2020 paper로, 링크를 확인 해주세요. Introduction large netowrk가 SOTA를 달성하기 위한 중요한 점이라는 증거라고 언급될 때, 큰 모델을 pre-train하고 이들을 작은 모델에 distill하는 방법이 흔해졌다. 여기서 모델 크기에 대한 의문점이 생겼다 : 더 나은 NLP 모델을 가지는 것이 큰 모델을 가지는 것만큼 쉬운가? 이에 대한 대답은 어려웠다. 바로 이용 가능한 하드웨어의 메모리 제한 때문이다. 그래서 저자들은 이 문제 해결을 위해 기존 BERT architecture보다 훨씬 적은 para..

Paper Review/NLP 2023.05.09

[2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning

[2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning Wangchunshu Zhou1, Canwen Xu, Julian McAuley 본문의 논문 ACL 2022로, 링크를 확인해 주세요. Abstract training 중에 teacher 모델이 고정되는 전통적 지식 증류(KD) 방법에 대한 간단하면서도 효과적인 대안인 메타 학습을 통한 지식 증류(MetaDistil)를 제안한다. teacher network가 meta-learning framework에서 증류된 student network의 성능에서 피드백을 얻어 student network에 더 나은 지식 전달을 학습할 수 있다. 다시 말해, 이 부분이 learning to ..

Knowledge Distillation

"BERT learns to teach" 라는 논문을 읽기 시작하는데, 처음 보는 내용이 많아 공부할 겸 정리하도록 하겠다. Knowledge Distillation - 직역하면 지식 증류이며, 복잡한 모델을 간단하게 사용할 수 있게 증류하는 것 - 복잡한 딥러닝 모델을 경량화된 디바이스에서 사용할 때 보다 낮은 메모리를 사용하면서, 정확도는 어느 수준 이상인 모델이 필요 - 많은 수의 파라미터를 가지고 있는 복잡한 딥러닝 모델 (teacher model)에서 지식을 경량화 모델 (student model)에 전달하는 방식 - 높은 정확도를 가지는 딥러닝 모델을 이용하여, teacher 모델의 loss function과 student model의 loss function을 결합한 distillation ..

[2017] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

[2017] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn , Pieter Abbeel , Sergey Levine 본문의 논문은 PMLR paper로, 링크를 확인해 주세요. Introduction Meta-learning은 learn-to-learn 방식으로, 작은 예제들로 이전의 경험을 바탕으로 새로운 task를 학습하는 방법이다. fast 학습과 새로운 것에 대한 fast adaption은 인간의 지능을 보여주는 인증 같은 것입니다. 물론 이런 것들이 우리가 만들 인공지능에도 adaption이 된다면 가장 좋을 것이다. 작은 양으로도 학습할 수 있고 그로 인해 overfitting을 피할 수 있게 하는,..

On-policy vs Off-policy

On-policy On policy는 behavior policy와 target policy가 같다. 즉, 현재 행동하는 policy를 그대로 update 할 목적으로 환경을 탐색한다. 현재 policy를 통해 얻은 trajectories(궤적)를 가지고 policy를 update를 하기 때문에 얻어지는 상태 분포 자체가 현재 policy에 의존적이게 된다. 그렇기 때문에, data dependent 한다. 이는 local optimal에 수렴할 수 있는 가능성을 만든다. 또한 한번 policy를 update 한 후, 그 이전의 trajectories는 현재의 policy와 다르기 때문에 더 이상 쓸 수 없다. 하지만 주로 update 할 action selection이 stochastic 하기 때문에,..

[2023] Deep Bidirectional Language-Knowledge Graph Pretraining

[2023] Deep Bidirectional Language-Knowledge Graph Pretraining Michihiro Yasunaga, Antoine Bosselut, Hongyu Ren, Xikun Zhang, Christopher D Manning, Percy Liang, Jure Leskovec 본문의 논문은 aaai 2023 workshop paper로, 링크를 확인해 주세요. Abstract 저자들의 제안 모델인 DRAGON (Deep Bidirectional Language-Knowledge Graph Pretraining) 은 MLM 과 KG의 linke prediction, 두 가지의 self-supervised reasoning task를 통합한 언어-지식 설립 모델을 사전훈..

[2023] Knowledge Relevance BERT

[2023] Knowledge Relevance BERT: Integrating Noisy Knowledge into Language Representations Karan Samel, Jun Ma, Zhengyang Wang, Tong Zhao, Irfan Essa 본문의 논문은 AAAI 2023 Work Shop Accepted paper로, 여기를 확인해 주세요. Introduction 저자들은 BERT를 이용한 새로운 domain에서 데이터를 수집할 수 있는 모델을 만들고자 하였다. 저자들이 사용할 데이터, 실세계에서의 e-commerce 데이터의 양이 적고 새로운 domain이기에 어려움이 있다고 첫 번째로 언급하고, 두 번째로, 추출한 지식들(knowledges)의 noise에 대해 이야기한다..

[2022] Generative Knowledge Graph Construction: A Review

[2022] Generative Knowledge Graph Construction: A Review Hongbin Ye, Ningyu Zhang, Hui Chen , Huajun Chen 본문의 논문은 EMNLP 2022 paper로, 여기를 확인해 주세요. Abstract KGC (Knowledge Graph Construction) 은 knowledge graph, 지식 그래프를 만들기 위해 sequence-to-sequence framework를 사용하는 방법으로, 광범위한 task에도 적용할 수 있고 유연성 있는 방법이다. 생성 지식 그래프에 대한 최근 주목할 만한 연구들을 요약한 논문이다. 각 각의 paradigm의 이점과 약점을 보여주고, 이론적인 통찰력과 경험에 의거한 분석을 제공한다. I..

[2022] Learning Inter-Entity Interaction for Few-Shot Knowledge GraphCompletion

[2022] Learning Inter-Entity Interaction for Few-Shot Knowledge Graph Completion Yuling Li, Kui Yu∗ , Xiaoling Huang, Yuhong Zhang 본문의 논문은 EMNLP 2022 Accepted paper로, 여기를 확인해 주세요. Abstract Few-shot knowledge graph completion (FKGC) 은 few-shot을 이용해 추론한 entity 쌍을 사용하여 알려지지 않은 relation의 triples를 발견하는 것이 목적인 그래프이다. 최근 이 연구에는 head와 tail entities의 neighborhoods를 따로 encoding 하여 entity 쌍의 의미론적인 표현을 학습하는..

728x90
반응형