728x90

Lecture Review/DSBA 14

[2019] T5 : text to text transformer

[2019] Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer T5 : 여러 task가 존재할 때 이 task 자체를 text로 변환하고 input값과 함께 넣어주면 output값 또한 text로 뽑아낸다고 설명합니다. main idea ① text to text e.g.) - grammar check dataset (CoLA) original input : sentence : "I am a great man." original target : 1 processed input : CoLA sentence : "I am a great man." processed target : acceptable - Sentiment da..

Lecture Review/DSBA 2022.03.23

[2019] BART

[2020] BART : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART - seq2 seq model을 pretrain 시키는 denoising autoencoder입니다. - bidirectional 하게 autoregressive transformer를 진행하였다는 점입니다. - 위의 그림과 같이 encoder에서는 noise input을 주고 decorder에서는 따로 하지 않았습니다. Noise 방법 다음처럼 ABC. DE. 의 두 sentence가 있다고 가정하여보겠습니다. ① token masking - 임의의 token을 [mask]로 교..

Lecture Review/DSBA 2022.03.23

[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach

[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach Main Idea : BERT는 아직 Underfitted model라는 것을 발견하여 이에 대한 가장 최적화된 BERT 만들어 보는 것 ① model의 학습시간 증가, batch size 키우고 train data 증가시키기 : pre-train에서 데이터 양을 늘릴수록 downstream task에서 성능이 증가하였다. ② NSP를 제거하였다. ③ longer sequence를 추가하였다. (즉, train data에서도 길이가 긴 sequence를 학습을 시켜보았다.) ④ masking pattern을 dynamic 하게 주었다. : BERT는 pre-train 전에 masking을 진..

Lecture Review/DSBA 2022.03.23

[2019] XLNet : Generalized Autogressive Pretrainig for Language

[AE와 AR] auto encoding - word sequence가 주어지면 x2를 mask 한 corrupted sequence가 주어질 것이고 이 mask 된 자리를 예측하는 것이 목적 - likelihood는 최대화하는 값을 구하는 것이다. ▶ 문제점 : [mask] token이 독립적으로 예측되기 때문에 token 사이의 dependency를 학습할 수가 없다. fine-tuning 과정에서 [mask] token이 등장하지 않기 때문에 pre-training과 fine-tuning 사이에 discrepancy 발생하게 된다. auto regressive - word sequence가 주어지고 x1, x2, x3가 있을 때 x4의 값을 예측하는 확률이 최대가 되는 값을 구하는 것이다. ▶ 문제..

Lecture Review/DSBA 2022.03.23

[2018-2019] GPT + GPT-2

[2018] GPT : Generative Pre-Training of a Language Model Motivation : unlabled text corpora가 많으니 generative pre-training language model을 통해 embedding vector를 찾아낸 후, 우리가 튜닝하고자 하는 task에 대해 (label 존재) fine-tuning 하면 더 도움이 될 것이다. GPT에서 제시하는 문제 - unlabeled text로부터 단어 level 이상으로 leveraging하는 것은 너무 challenging 하다. ▷ 어떠한 optimization objectives가 효과적인지 모른다. - target task에 대해 most effective way to transfe..

Lecture Review/DSBA 2022.03.21

[2018] BERT

관련 예시 코드는 여기를 확인해주세요. [2018] BERT : Bidirectional Encoder Representations from Transformer BERT - bidirectional encoder representation을 학습한다. ▷ Masekd language model (MLM) : 임의의 순서에 해당하는 (순차적으로 forward/backward를 사용하는 것이 아니라) 위치를 making 하여 이들을 예측하는 model을 만드는 것이다. ELMo 같은 경우, forward와 backward model을 따로 학습한 후, 해당 representation을 결합하였고, GPT의 경우, transformer의 decoder부분 (보고자 하는 단어의 후반 부분)을 모두 maskin..

Lecture Review/DSBA 2022.03.20

[2018] ELMo : Embedding from Language Model

[2018] ELMo : Embedding from Language Model Pre-trained word representations - NLP관련 downstream task (QA, classification..)가 많은 neural language understanding model의 key component High quality representations should ideally model - 단어의 복잡성을 모델링할 수 있다. (e.g., syntax and semantics) - 언어학적인 contexts 상에 서로 다르게 사용될 때 해당하는 사용법을 사용해야 합니다. (i.e., to model polysemy) ※ ploysemy의 예시를 들어보자면 눈(eye) 와 눈(snow) ..

Lecture Review/DSBA 2022.03.18

[2017] Transformer : Attention Is All You Need

여기서 사용된 자료들 또한 Alammar에 도움을 받았습니다. NLP 공부를 해본 사람이라면 꼭 한 번 이상 들었을 transformer에 대해 이야기하고자 합니다. 중요한 내용이니만큼 그림첨부가 많아 내용이 길어졌습니다. transformer의 시기 순으로 보게 될 때, Jan 16, 2013 Word2Vec Jan 2, 2014 GloVe July 15, 2016 FastText June 12, 2017 Transformer : Attention is All you need Feb 15, 2018 ELMO Oct 11, 2018 BERT [2017] Transformer - attention을 사용하는 model이면서 학습과 paralleize가 쉬운, speed를 높이고자 하는 model입니다. -..

Lecture Review/DSBA 2022.03.17

[2014] Seq2Seq Learning with Neural Networks

시작하기 전, 내용을 보아도 이해가 잘 안 된다면 Alamar(Attention) 페이지를 소개합니다. 시각적인 부분도 잘 설명해두었고, 더할 나위 없이 완벽하다고 볼 수 있는 내용이기에 한 번쯤 보는 것을 추천합니다. https://jalammar.github.io/ Jay Alammar – Visualizing machine learning one concept at a time. Visualizing machine learning one concept at a time. jalammar.github.io [2014] Sequence-to-sequence model Sequence-to-sequence model - model의 input에 sequence를 받는다. (words, letters, f..

Lecture Review/DSBA 2022.03.16

Topic Modeling - 2

topic modeling 관련 예제는 여기를 확인하세요. [2012] LDA Documents exhibit multiple topics (배경) 한 document는 여러 개의 topic들이 섞여있을 것이고 (그리고 그게 얼마나 섞여있는지 알아낼 수 있고), 우리는 그런 topic들에서 주로 사용되는 단어가 무엇인지 알아낼 수 있다. - Each topic is a distribution over words. - Each document is a mixuture of corpuis-wide topics. - Each word is drawn from one of those topics. 하지만 실제로 우리는 document자체만 안다. (topic들이 뭔지 모름, 각각의 비중도 모른다는 것이다.) Q..

Lecture Review/DSBA 2022.03.16
728x90
반응형