728x90

nlp 33

[2022] Generating Repetitions with Appropriate Repeated Words

[2022] Generating Repetitions with Appropriate Repeated Words Toshiki Kawamoto, Hidetaka Kamigaito, Kotaro Funakoshi and Manabu Okumura 본문의 논문은 NAACL 2022 Accepted paper로, 여기를 확인해주세요. Abstract 반복은 대화에서 사람들의 말을 번복하는 것이다. 이런 반복은 언어학적인 연구에 큰 비중을 차지하는데, 저자들은 이 반복 생성에 주목하였다. 저자들은 Weighted Label Smoothing을 제안하는데, 이는 fine-tuning 단계에서 반복할 단어를 명시적으로 학습하기 위한 smoothing 방법이고, 디코딩 중 더 적절한 반복을 출력할 수 있는 반복 스코어..

[2022] Progressive Class Sentimantic Matching for Semi-Supervised Text Classification

해당 논문은 여기를 확인해주시면 됩니다. 위 논문은 NAACL 2022 Accepted Paper에서 확인할 수 있습니다. 본 논문은 text classification을 SSL, 즉 Semi-Supervised Learning과 결합하여, 흔히들 알고 있는 BERT를 예로 들어 쉽게 이해할 수 있습니다. Semi-Supervised Learning (SSL) - SSL은 SL(Supervised Learning)에 비해 한정적인 labeling data를 가지고 하기에 경제적이며, 접근성이 좋은 것이 특징입니다. - 또한 현재 text와 image 분야 모두에서 각광받는 학습 방법입니다. PLM (Pretrained Language Model) - 본 논문에서 SSL을 위한 PLM의 사용에 대해 언급하..

Paper Review/NLP 2022.09.19

[pytorch] 단어와 타입 임베딩

1. 임베딩 - 임베딩 : 이산 타입과 벡터 공간의 포인트 사이에 매핑을 학습하는 것 1.1 임베딩 이유 - 문장에 등장하는 카운트 값은 단어의 빈도에 상응하는데, 이 카운트 기반 표현은 중요한 내용이나 의미가 벡터의 여러 차원에 표현되어서 분산적 표현이라고도 부른다. 분산 표현은 단어가 훨씬 낮은 차원의 밀집 벡터로 표현된다는 사실에서 이름을 따왔습니다. 단어의 의미와 다른 속성이 이 밀집 벡터의 여러 차원에 걸쳐 분산됩니다. - 저차원으로 학습된 밀집 표현은 one-hot vector나 카운트 기반의 벡터와 다른 장점이 있는데, ① 계산이 효율적으로 수행된다. ② 카운트 기반은 여러 차원에 비슷한 정보를 중복해 인코딩한 고차원 벡터를 만듭니다. ③ 매우 고차원 입력은 머신러닝과 최적화에서 실제로 문제..

[pytorch] Feed-forward network

퍼셉트론은 데이터에서 복잡한 패턴을 학습할 수 없다는 단점이 있다. 배타적 논리합(XOR)에 해당하는 데이터 셋을 퍼셉트론은 학습하지 못한다. MLP (MultiLayer Perceptron) - 간단한 퍼셉트론을 구조적으로 확장한 신경망 CNN (Convolutional Neural Network) - 디지털 신호 처리에 사용하는 윈도 필터에 영향을 받아 만든 신경망 - 윈도 특성 덕분에 입력에 있는 국부 패턴을 학습할 수 있다. - 컴퓨터 비전에 아주 적합하고 단어나 문장 같으느 순차 데이터에서 부분 구조를 감지하는 데도 이상적이다. 크게 위의 두 가지를 소개하고 예제도 함께 보겠다. 1. 다층 퍼셉트론 (MLP) - MLP는 많은 퍼셉트론이 모여 있으므로 층의 출력은 출력값 하나가 아닌 벡터이다. ..

[pytorch] 신경망의 기본 구성 요소

퍼셉트론 : 가장 간단한 신경망 $y = f(w * x + b)$ - 선형 함수와 비선형 함수의 조합으로 선형 함수 표현인 $wx + b$ 는 아핀 변환 (affine transform)이라고도 한다. 2. 활성화 함수 (1) 시그모이드 $f(x) = \frac{1}{1+e^{-x}}$ - 입력 범위 대부분에서 매우 빠르게 포화되어 gradient가 0이 되거나 발산하여 부동소수 오버플로가 되는 문제 발생. → 그레이디언트 소실/ 폭주 문제 → 신경망에서 거의 출력층에서만 쓰임 (2) 하이퍼볼릭 탄젠트 $f(x) = tanh x = \frac{e^x - e^{-x}}{e^x + e^{-x}}$ - (-∞,∞) 범위의 실숫값을 [-1, 1]로 바꾼다. (3) 렐루 $f(x) = max(0, x)$ - gr..

[pytorch] nlp기술 빠르게 훑어보기

github 확인해보기 2.1 말뭉치, 토큰, 타입 - 말뭉치(corpus) : 원시 텍스트(ASCII나 UTF-8)와 이 텍스트에 관련된 메타데이터 - 토큰(token) : 일반적으로 문자를 연속된 단위로 묶음 - 샘플 / 데이터 포인트 : 메타데이터가 붙은 텍스트 - 토큰화(tokenization) : 텍스트를 토큰으로 나누는 과정 - 타입(type) : corpus에 등장하는 고유한 token ※ 특성공학 (feature engineering) : 언어학을 이해하고 NLP 문제 해결에 적용하는 과정 2.2 유니그램, 바이그램, 트라이그램, ... , n-그램 N-그램 : 텍스트에 있는 고정 길이(n)의 연속된 token sequence - unigram : 토큰 한 개, bigram : 토큰 두 개..

[pytorch] Intro

[파이토치로 배우는 자연어처리] 교재 참고 처음부터 공부하는 마음으로 책 정리를 해보았다. 1.1 지도학습 - 머신러닝에서 지도 또는 지도 학습은 샘플(observation)에 대응하는 예측하는 값(target)의 정답을 제공하는 방식이다. - sample : 예측 시 사용하는 아이템. 즉, input - target : sample에 상응하는 label, 또는 ground truth - model : target label을 예측하는 함수 - parameter : 모델을 규정함. weight라고도 불림. - predict : estimate $\hat{y}$ - loss function : 훈련 데이터에 대한 예측이 타깃과 얼마나 멀리 떨어져 있는지 비교 ①..

[2022] Learn to Adapt for Generalized Zero-Shot Text Classification

[acl 2022 long paper] Learn to Adapt for Generalized Zero-Shot Text Classification Yiwen Zhang, Caixia Yuan∗ , Xiaojie Wang, Ziwei Bai, Yongbin Liu text classification에 대한 연구를 하던 중, acl 2022에 올라온 zero-shot에 대한 논문을 읽어 보았다. 읽으면서 거의 처음 들어보는 부분이 많아 여러 번 읽고 찾아본 후에 이해를 하였다. Intro 일반적인 deep-learning에서는 training에 사용된 class만을 예측한다. 즉, unseen data를 seen class로 분류를 하게 된다. 다음 그림으로 쉽게 이해하자면, 일반적으로 CNN에 고양이, ..

자연어 처리 기초

Natural Language Processing 기초적인 부분으로 , 많이 사용되는 함수에 대한 언급을 시작으로 각각 예시를 들어 코드를 연습하였습니다. 필요한 함수가 많으므로 download 및 install을 하여 연습하였습니다. colab 환경에서 사용한 간단한 예제입니다. 자세한 코드는 여기를 확인해주세요. 사용된 모델의 간단한 정리는 제 tistory를 확인해주세요. + 추가

728x90
반응형