728x90

nlp 33

[2020] Language Models are Few-Shot Learners

[2020] Language Models are Few-Shot LearnersopenAI 본문의 논문은 다음 링크를 확인해 주세요.  Abstract  최근 생성형 ai 모델이 많이 떠오르면서, openAI에서 보여준 ChatGPT가 선두주자로 달리고 있다. 아마 개발자들은 다들 한 번씩 사용해 봤을 거라 생각하고, 성능이 꽤나 나쁘지 않다는 점에서 자연어처리 전공자들이 많이 놀랐을 것이라 생각한다. (나 역시 마찬가지..) NLP 모델은 단어 임베딩을 학습하는 것에서 시작하여 RNN 레이어를 쌓아 문맥 벡터를 만들어내는 다양한 모델들 (ELMo, BERT, GPT, ULMFit)과 같이 트랜스포머 구조를 이용해 문맥을 표현하는 모델, 대량의 코퍼스를 이용해 학습된 모델은 fine-tuning을 통해 ..

ALP: Data Augmentation Using Lexicalized PCFGs for Few-Shot Text Classifcation

[2022] ALP: Data Augmentation Using Lexicalized PCFGs for Few-Shot Text Classifcation Hazel H. Kim, Daecheol Woo , Seong Joon Oh , Jeong-Won Cha , Yo-Sub Han 본문의 논문은 AAAI 2022 paper로, 링크를 확인해 주세요. Introduction deep learning에서 labeled data를 이용하는 것은 좋은 재료가 된다. 최근에는 많은 data augmentation 기법이 사용되었는데, 아래와 같이 대부분의 방법들은 문장 구조의 다양성과 그럴듯하게 만들어진 문장 생성에 많이 실패하였다. 저자들은 이러한 한계점을 이용해 문법 기반의 증강 모델인, ALP (Augmen..

AugGPT : Leveraging ChatGPT for Text Data Augmentation

[2023] AugGPT : Leveraging ChatGPT for Text Data Augmentation 본문의 논문은 다음 링크를 확인해 주세요. Abstract text augmentation은 여전히 challenge한 부분이지만, 그만큼 사용하는 방법 또한 단순하다고 느낀다. 지난번에 알아본 방법론에서는 동의어 대체, 랜덤 하게 삭제 그리고 랜덤 하게 단어 삽입하는 방법이 있다. 단순하지만 효과적인 text augmentation이지만, 한국어에는 아직 그리 좋은 성능을 보이지 않는다고 생각한다. 그리고 작년부터 많이 언급된 ChatGPT 또한 많은 이목을 끌어오고 있다. 본 논문의 저자들은 이 ChatGPT를 활용하여 text augmentation을 하는 방식을 생각하였는데, 제목부터 흥..

[2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning

[2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning Wangchunshu Zhou1, Canwen Xu, Julian McAuley 본문의 논문 ACL 2022로, 링크를 확인해 주세요. Abstract training 중에 teacher 모델이 고정되는 전통적 지식 증류(KD) 방법에 대한 간단하면서도 효과적인 대안인 메타 학습을 통한 지식 증류(MetaDistil)를 제안한다. teacher network가 meta-learning framework에서 증류된 student network의 성능에서 피드백을 얻어 student network에 더 나은 지식 전달을 학습할 수 있다. 다시 말해, 이 부분이 learning to ..

[2023] Deep Bidirectional Language-Knowledge Graph Pretraining

[2023] Deep Bidirectional Language-Knowledge Graph Pretraining Michihiro Yasunaga, Antoine Bosselut, Hongyu Ren, Xikun Zhang, Christopher D Manning, Percy Liang, Jure Leskovec 본문의 논문은 aaai 2023 workshop paper로, 링크를 확인해 주세요. Abstract 저자들의 제안 모델인 DRAGON (Deep Bidirectional Language-Knowledge Graph Pretraining) 은 MLM 과 KG의 linke prediction, 두 가지의 self-supervised reasoning task를 통합한 언어-지식 설립 모델을 사전훈..

[2022] A Framework for Adapting Pre-Trained Language Models to Knowledge Graph Completion

[2022] A Framework for Adapting Pre-Trained Language Models to Knowledge Graph Completion Justin Lovelace∗ Carolyn Penstein Rosé 본문의 논문은 EMNLP 2022 paper로, 여기를 확인해 주세요. Introduction 최근 연구에서 KG 내에 자연적으로 발생하는 희소성을 더 강하게 접근할 수 있는 방법을 개발하기 위해 pre-trained language model을 활용하였다. 이 접근법은 그래프 연결에 덜 의존하는 entity representations를 개발하기 위해 텍스트 entity 묘사를 활용하는 것이다. 이런 연구는 언어 모델에 entities를 인코딩하기 위한 훈련 중 직접적으로 f..

[2019] Neo-GNNs: Neighborhood Overlap-aware Graph Neural Networks for Link Prediction

[2019] Neo-GNNs: Neighborhood Overlap-aware Graph Neural Networks for Link Prediction Seongjun Yun, Seoyoon Kim, Junhyun Lee, Jaewoo Kang∗ , Hyunwoo J. Kim* 본문의 논문은 여기를 확인해 주세요. Abstract GNN (Graph Neural Network)는 그래프 구조 데이터 학습을 위해 다양한 분야에서 많이 적용되었다. 노드 분류와 그래프 분류와 같은 전통적인 휴리스틱 방법 (경험 기반 방식)에서 큰 향상을 보여주었다. 하지만 GNN은 그래프 구조보다 매끄러운 노드 특성에 크게 의존하기 때문에, 구조적 정보, 예를 들어 오버랩된 이웃, degree, 최단 경로가 중요한 링크 예..

[2021] "Serving Each User"- Supporting Different Eating Goals Through a Multi-List Recommender Interface

[2021] "Serving Each User"- Supporting Different Eating Goals Through a Multi-List Recommender Interface ALAIN D. STARKE, EDIS ASOTIC and CHRISTOPH TRATTNER 본문의 논문의 출처는 RecSys 2021로, 여기를 확인해주세요. Summary 유저들의 다양한 목적에 부합하는 multi-list 음식 추천 인터페이스를 제안한다. 저자들은 두 가지 인터페이스 (single vs multiple lists)의 방법을 노출했을 때 어떤 차이가 있는지 유저 스터디로 비교 분석하였다. 비록 multi-list 인터페이스가 single보다 덜 건강한 것을 선택하지만, 다양성과 선택의 만족성은 sin..

[2022] Partner Personas Generation for Dialogue Response Generation

[2022] Partner Personas Generation for Dialogue Response Generation Hongyuan Lu, Wai Lam, Hong Cheng, Helen M. Meng 본문의 논문은 NAACL 2022 Accepted paper로, 여기를 확인해주세요. Abstract 페르소나를 정보로 통합하는 것은 대화 응답 생성에서 다양하고 매력적인 응답을 가능하게 한다. 이전 연구들은 주로 self 페르소나에 초점을 두었고, 파트너의 페르소나의 가치를 간과했다. 게다가 실제 적용에서, gold 파트너 페르소나의 가용성은 종종 그렇지 않다. 본 논문은 성공적인 대화 응답 생성을 강화하기 위해 자동 파트너 페르소나 생성에 영향을 준 새로운 프레임워크를 제공함으로써 이 이슈들을 해..

[2022] On Curriculum Learning for Commonsense Reasoning

[2022] On Curriculum Learning for Commonsense Reasoning Adyasha Maharana Mohit Bansal 본문의 논문은 NAACL 2022 Accepted paper로, 여기를 확인해주세요. Abstract 상식 추론은 target task 데이터에서 pre-trained 언어 모델을 fine-tuning 하는 표준 패러다임을 따르며, 여기서 훈련 중에 샘플이 랜덤한 순서로 모델에 들어간다. 하지만 최근 연구에서는 데이터의 순서가 자연어 이해를 위한 fin-tuned 모델의 성능에 중요한 영향을 준다고 한다. 그러므로 상식 추론에서 언어 모델의 fine-tuning 동안 인간 같은 어려워지는 난이도 커리큘럼의 효과를 설명한다. 속도가 pacing 커리큘럼 ..

728x90
반응형