728x90

Paper Review 34

CRAFT : Character Region Awareness for Text Detection

[2019] CRAFT : Character Region Awareness for Text Detection Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee ClovaAI Research ,NAVER Corp. 본문의 논문 링크는 다음을 확인해주세요. Introduction 저자들은 두 가지 score를 사용하였다. region score는 이미지에서 개별 글자들의 위치를 확인하는 데 사용하고, affinity score는 각 글자를 개별 instance로 그룹화하는 데 사용한다. 글자 단위의 주석의 부족함을 보충해 주기 위해 실제 단어 단위의 데이터셋을 사용하여 ground-truth를 측정하는 weakly supervised learn..

ALP: Data Augmentation Using Lexicalized PCFGs for Few-Shot Text Classifcation

[2022] ALP: Data Augmentation Using Lexicalized PCFGs for Few-Shot Text Classifcation Hazel H. Kim, Daecheol Woo , Seong Joon Oh , Jeong-Won Cha , Yo-Sub Han 본문의 논문은 AAAI 2022 paper로, 링크를 확인해 주세요. Introduction deep learning에서 labeled data를 이용하는 것은 좋은 재료가 된다. 최근에는 많은 data augmentation 기법이 사용되었는데, 아래와 같이 대부분의 방법들은 문장 구조의 다양성과 그럴듯하게 만들어진 문장 생성에 많이 실패하였다. 저자들은 이러한 한계점을 이용해 문법 기반의 증강 모델인, ALP (Augmen..

AugGPT : Leveraging ChatGPT for Text Data Augmentation

[2023] AugGPT : Leveraging ChatGPT for Text Data Augmentation 본문의 논문은 다음 링크를 확인해 주세요. Abstract text augmentation은 여전히 challenge한 부분이지만, 그만큼 사용하는 방법 또한 단순하다고 느낀다. 지난번에 알아본 방법론에서는 동의어 대체, 랜덤 하게 삭제 그리고 랜덤 하게 단어 삽입하는 방법이 있다. 단순하지만 효과적인 text augmentation이지만, 한국어에는 아직 그리 좋은 성능을 보이지 않는다고 생각한다. 그리고 작년부터 많이 언급된 ChatGPT 또한 많은 이목을 끌어오고 있다. 본 논문의 저자들은 이 ChatGPT를 활용하여 text augmentation을 하는 방식을 생각하였는데, 제목부터 흥..

[2021] Revisiting the Performance of iALS on Item Recommendation Benchmarks

[2021] Revisiting the Performance of iALS on Item Recommendation Benchmarks Steffen Rendle, Walid Krichene, Li Zhang, Yehuda Koren 본문의 논문은 ACM RecSys paper로, 링크를 확인해 주세요. Abtract google에서 낸 논문으로, 추천 시스템의 트릭을 발견하여 조금 더 잘 적용해보았다고 한다. 기존의 SOTA모델과 경쟁이 될 정도로 성능이 좋은 편은 아니지만, 기존의 것을 사용한 update된 논문 정도로 생각하면 좋을 듯하다. Introduction iALS (implicit Alternating Least Square)는 implicit 피드백을 통해 top-n 아이템 추천을 목적으..

DeepFM : A Factorization-Machine based Neural Network for CTR Prediction

[2017] DeepFM : A Factorization-Machine based Neural Network for CTR Prediction Huifeng Guo, Ruiming Tang, Yunming Ye, Zhenguo Li, Xiuqiang He 본문의 논문은 링크를 확인해 주세요. Introduction CTR (Click-Through Rate) · 추천된 아이템을 유저가 클릭할 확률을 뜻한다. · 대부분의 추천 시스템은 이 확률의 최대화를 목표로 한다. CTR 예측을 위한 user의 implicit feature interaction 예시) · 유저들의 식사 시간(시간)에 음식 배달 앱(앱 종류)을 자주 다운로드 한다. → CTR 신호 : 시간과 앱 종류 사이의 order-2 interac..

FM (Factorization Machine)

추천 시스템에서 기반이 되는 Factorization 에 대해 간략히 정리하고자 한다. MF (Matrix Factorizatoin) Matrix Factorization은 가장 대중적인 Latent Factor model로, SVD(Singular Value Decomposition)과 유사하게 유저와 아이템을 $f$차원의 latent factor space로 매핑한다. $f$개의 latent factor 로 표현된 user, item vector $\mathbf{p}_u, \mathbf{q}_i$의 내적으로 둘 사이의 interaction $\hat{\mathbf{r}}_{ui}$를 다음과 같이 구한다. $\hat{\mathbf{r}}_{ui} = \mathbf{p}_u \mathbf{q}_i$ Fa..

Neural Collaborative Filtering (NCF)

[2017] Neural Collaborative Filtering Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, Tat-Seng Chua 본문의 논문은 ICER paper로, 링크를 확인해 주세요. Introduction 추천 시스템은 이전에도 궁금하여 다루어 보았던 내용으로, collaborative filtering기법에서 가장 대표적으로 많이 사용되는 matrix factorization (MF)이 있다. 이는 유저 또는 아이템의 잠재적 특성을 가진 벡터를 사용하여 곱하여 계산하는 방식이다. 즉, 아이템에 대한 사용자의 상호작용을 내적을 이용하여 모델링한 것이다. 추천 시스템에 적용되는 가장 유명한 것으로 넷플릭스를 뽑을 수 있다. 이는..

[2020] ALBERT

[2020] ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS 본문의 논문은 ICLR 2020 paper로, 링크를 확인 해주세요. Introduction large netowrk가 SOTA를 달성하기 위한 중요한 점이라는 증거라고 언급될 때, 큰 모델을 pre-train하고 이들을 작은 모델에 distill하는 방법이 흔해졌다. 여기서 모델 크기에 대한 의문점이 생겼다 : 더 나은 NLP 모델을 가지는 것이 큰 모델을 가지는 것만큼 쉬운가? 이에 대한 대답은 어려웠다. 바로 이용 가능한 하드웨어의 메모리 제한 때문이다. 그래서 저자들은 이 문제 해결을 위해 기존 BERT architecture보다 훨씬 적은 para..

Paper Review/NLP 2023.05.09

[2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning

[2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning Wangchunshu Zhou1, Canwen Xu, Julian McAuley 본문의 논문 ACL 2022로, 링크를 확인해 주세요. Abstract training 중에 teacher 모델이 고정되는 전통적 지식 증류(KD) 방법에 대한 간단하면서도 효과적인 대안인 메타 학습을 통한 지식 증류(MetaDistil)를 제안한다. teacher network가 meta-learning framework에서 증류된 student network의 성능에서 피드백을 얻어 student network에 더 나은 지식 전달을 학습할 수 있다. 다시 말해, 이 부분이 learning to ..

Knowledge Distillation

"BERT learns to teach" 라는 논문을 읽기 시작하는데, 처음 보는 내용이 많아 공부할 겸 정리하도록 하겠다. Knowledge Distillation - 직역하면 지식 증류이며, 복잡한 모델을 간단하게 사용할 수 있게 증류하는 것 - 복잡한 딥러닝 모델을 경량화된 디바이스에서 사용할 때 보다 낮은 메모리를 사용하면서, 정확도는 어느 수준 이상인 모델이 필요 - 많은 수의 파라미터를 가지고 있는 복잡한 딥러닝 모델 (teacher model)에서 지식을 경량화 모델 (student model)에 전달하는 방식 - 높은 정확도를 가지는 딥러닝 모델을 이용하여, teacher 모델의 loss function과 student model의 loss function을 결합한 distillation ..

728x90
반응형