728x90

분류 전체보기 129

[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach

[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach Main Idea : BERT는 아직 Underfitted model라는 것을 발견하여 이에 대한 가장 최적화된 BERT 만들어 보는 것 ① model의 학습시간 증가, batch size 키우고 train data 증가시키기 : pre-train에서 데이터 양을 늘릴수록 downstream task에서 성능이 증가하였다. ② NSP를 제거하였다. ③ longer sequence를 추가하였다. (즉, train data에서도 길이가 긴 sequence를 학습을 시켜보았다.) ④ masking pattern을 dynamic 하게 주었다. : BERT는 pre-train 전에 masking을 진..

Lecture Review/DSBA 2022.03.23

[2019] XLNet : Generalized Autogressive Pretrainig for Language

[AE와 AR] auto encoding - word sequence가 주어지면 x2를 mask 한 corrupted sequence가 주어질 것이고 이 mask 된 자리를 예측하는 것이 목적 - likelihood는 최대화하는 값을 구하는 것이다. ▶ 문제점 : [mask] token이 독립적으로 예측되기 때문에 token 사이의 dependency를 학습할 수가 없다. fine-tuning 과정에서 [mask] token이 등장하지 않기 때문에 pre-training과 fine-tuning 사이에 discrepancy 발생하게 된다. auto regressive - word sequence가 주어지고 x1, x2, x3가 있을 때 x4의 값을 예측하는 확률이 최대가 되는 값을 구하는 것이다. ▶ 문제..

Lecture Review/DSBA 2022.03.23

백준 1712, 2292

#1712 a = int(input()) # a: 고정비용 b: 가변비용 c: 노트북 가격 b = int(input()) c = int(input()) if b >= c: print(-1) else: print(int(a/(c-b) +1)) 처음 봤을 땐 글부터 이해를 하지 못했다 ㅋㅋ 천천히 읽어보자면, x = 생산 대수일 때, a+b*x = c 이면 손익분기점을 가질 수가 없다. 손해가 커지니까! 수학적인 계산만 해낸다면 생각해낼 수 있는 문제였다. #2292 n = int(input()) room = 1 move = 6 cnt = 1..

백준 1152,2908,5622

#1152 word = input().split() print(len(word)) #2908 a,b = input().split() a_reverse = int(a[::-1]) b_reverse = int(b[::-1]) print(max(a_reverse, b_reverse)) #5622 word = input() list = ['ABC','DEF','GHI','JKL','MNO','PQRS','TUV','WXYZ'] time = 0 for j in range(len(word)): for i in list: if word[j] in i: time += list.index(i)+3 print(time) 2908번에서 역순으로 넣으려고 reverse를 쓰다가 str에만 된다는것을 깨닫고 했지만 잘못 쓴건지..

[2018-2019] GPT + GPT-2

[2018] GPT : Generative Pre-Training of a Language Model Motivation : unlabled text corpora가 많으니 generative pre-training language model을 통해 embedding vector를 찾아낸 후, 우리가 튜닝하고자 하는 task에 대해 (label 존재) fine-tuning 하면 더 도움이 될 것이다. GPT에서 제시하는 문제 - unlabeled text로부터 단어 level 이상으로 leveraging하는 것은 너무 challenging 하다. ▷ 어떠한 optimization objectives가 효과적인지 모른다. - target task에 대해 most effective way to transfe..

Lecture Review/DSBA 2022.03.21

[2018] BERT

관련 예시 코드는 여기를 확인해주세요. [2018] BERT : Bidirectional Encoder Representations from Transformer BERT - bidirectional encoder representation을 학습한다. ▷ Masekd language model (MLM) : 임의의 순서에 해당하는 (순차적으로 forward/backward를 사용하는 것이 아니라) 위치를 making 하여 이들을 예측하는 model을 만드는 것이다. ELMo 같은 경우, forward와 backward model을 따로 학습한 후, 해당 representation을 결합하였고, GPT의 경우, transformer의 decoder부분 (보고자 하는 단어의 후반 부분)을 모두 maskin..

Lecture Review/DSBA 2022.03.20

[2018] ELMo : Embedding from Language Model

[2018] ELMo : Embedding from Language Model Pre-trained word representations - NLP관련 downstream task (QA, classification..)가 많은 neural language understanding model의 key component High quality representations should ideally model - 단어의 복잡성을 모델링할 수 있다. (e.g., syntax and semantics) - 언어학적인 contexts 상에 서로 다르게 사용될 때 해당하는 사용법을 사용해야 합니다. (i.e., to model polysemy) ※ ploysemy의 예시를 들어보자면 눈(eye) 와 눈(snow) ..

Lecture Review/DSBA 2022.03.18

[2017] Transformer : Attention Is All You Need

여기서 사용된 자료들 또한 Alammar에 도움을 받았습니다. NLP 공부를 해본 사람이라면 꼭 한 번 이상 들었을 transformer에 대해 이야기하고자 합니다. 중요한 내용이니만큼 그림첨부가 많아 내용이 길어졌습니다. transformer의 시기 순으로 보게 될 때, Jan 16, 2013 Word2Vec Jan 2, 2014 GloVe July 15, 2016 FastText June 12, 2017 Transformer : Attention is All you need Feb 15, 2018 ELMO Oct 11, 2018 BERT [2017] Transformer - attention을 사용하는 model이면서 학습과 paralleize가 쉬운, speed를 높이고자 하는 model입니다. -..

Lecture Review/DSBA 2022.03.17
728x90
반응형