728x90

Paper Review/Reasoning & Inference 3

[2020] Language Models are Few-Shot Learners

[2020] Language Models are Few-Shot LearnersopenAI 본문의 논문은 다음 링크를 확인해 주세요.  Abstract  최근 생성형 ai 모델이 많이 떠오르면서, openAI에서 보여준 ChatGPT가 선두주자로 달리고 있다. 아마 개발자들은 다들 한 번씩 사용해 봤을 거라 생각하고, 성능이 꽤나 나쁘지 않다는 점에서 자연어처리 전공자들이 많이 놀랐을 것이라 생각한다. (나 역시 마찬가지..) NLP 모델은 단어 임베딩을 학습하는 것에서 시작하여 RNN 레이어를 쌓아 문맥 벡터를 만들어내는 다양한 모델들 (ELMo, BERT, GPT, ULMFit)과 같이 트랜스포머 구조를 이용해 문맥을 표현하는 모델, 대량의 코퍼스를 이용해 학습된 모델은 fine-tuning을 통해 ..

[2022] On Curriculum Learning for Commonsense Reasoning

[2022] On Curriculum Learning for Commonsense Reasoning Adyasha Maharana Mohit Bansal 본문의 논문은 NAACL 2022 Accepted paper로, 여기를 확인해주세요. Abstract 상식 추론은 target task 데이터에서 pre-trained 언어 모델을 fine-tuning 하는 표준 패러다임을 따르며, 여기서 훈련 중에 샘플이 랜덤한 순서로 모델에 들어간다. 하지만 최근 연구에서는 데이터의 순서가 자연어 이해를 위한 fin-tuned 모델의 성능에 중요한 영향을 준다고 한다. 그러므로 상식 추론에서 언어 모델의 fine-tuning 동안 인간 같은 어려워지는 난이도 커리큘럼의 효과를 설명한다. 속도가 pacing 커리큘럼 ..

[2022] Embarrassingly Simple Performance Prediction for Abductive Natural Language Inference

[2022] Embarrassingly Simple Performance Prediction for Abductive Natural Language Inference Em¯ıls Kadik, is, Vaibhav Srivastav, and Roman Klinger 본문의 논문은 NAACL 2022 Accepted paper로, 여기를 확인해주세요. Abstract Abductive natural language interence ($\alpha$NLI)는 관찰 데이터 셋을 더 잘 설명하는 가설이 무엇인지 결정하는 작업으로, 특히 NLI의 어려운 부분이다. 저자들은 단순한 관계를 정의하는 대신, 얼마나 합리적으로 설명하는지를 평가하기 위해 common sense를 사용한다. 최근 연구들은 상황에 맞는 표현..

728x90
반응형