728x90

분류 전체보기 131

[2018] ELMo : Embedding from Language Model

[2018] ELMo : Embedding from Language Model Pre-trained word representations - NLP관련 downstream task (QA, classification..)가 많은 neural language understanding model의 key component High quality representations should ideally model - 단어의 복잡성을 모델링할 수 있다. (e.g., syntax and semantics) - 언어학적인 contexts 상에 서로 다르게 사용될 때 해당하는 사용법을 사용해야 합니다. (i.e., to model polysemy) ※ ploysemy의 예시를 들어보자면 눈(eye) 와 눈(snow) ..

Lecture Review/DSBA 2022.03.18

[2017] Transformer : Attention Is All You Need

여기서 사용된 자료들 또한 Alammar에 도움을 받았습니다. NLP 공부를 해본 사람이라면 꼭 한 번 이상 들었을 transformer에 대해 이야기하고자 합니다. 중요한 내용이니만큼 그림첨부가 많아 내용이 길어졌습니다. transformer의 시기 순으로 보게 될 때, Jan 16, 2013 Word2Vec Jan 2, 2014 GloVe July 15, 2016 FastText June 12, 2017 Transformer : Attention is All you need Feb 15, 2018 ELMO Oct 11, 2018 BERT [2017] Transformer - attention을 사용하는 model이면서 학습과 paralleize가 쉬운, speed를 높이고자 하는 model입니다. -..

Lecture Review/DSBA 2022.03.17

[2017] SeqGAN_Sequence Generative Adversarial Nets with Policy Gradient

본 논문은 AAAI에 2017년에 게시되었습니다. SeqGAN을 설명하기 전, 어떻게 나오게 된 모델인지 설명을 하고 진행하겠습니다. GAN (Generative Adversarial Net) - G : Generator , 생성자 (도둑) - D : discriminator, 식별자 또는 감시자 (경찰) 장단점 - 장점 : Markov Chain이 전혀 필요 없이 backpropagation만으로 학습이 된다. 특별한 inference가 필요 없다. - 단점 : D와 G는 균형 있게 향상이 되어야 한다. Limitation & how to solve ▣ generating sequences of discrete tokens - difficult to pass the gradient update from..

Paper Review/NLP 2022.03.16

[2014] Seq2Seq Learning with Neural Networks

시작하기 전, 내용을 보아도 이해가 잘 안 된다면 Alamar(Attention) 페이지를 소개합니다. 시각적인 부분도 잘 설명해두었고, 더할 나위 없이 완벽하다고 볼 수 있는 내용이기에 한 번쯤 보는 것을 추천합니다. https://jalammar.github.io/ Jay Alammar – Visualizing machine learning one concept at a time. Visualizing machine learning one concept at a time. jalammar.github.io [2014] Sequence-to-sequence model Sequence-to-sequence model - model의 input에 sequence를 받는다. (words, letters, f..

Lecture Review/DSBA 2022.03.16

Topic Modeling - 2

topic modeling 관련 예제는 여기를 확인하세요. [2012] LDA Documents exhibit multiple topics (배경) 한 document는 여러 개의 topic들이 섞여있을 것이고 (그리고 그게 얼마나 섞여있는지 알아낼 수 있고), 우리는 그런 topic들에서 주로 사용되는 단어가 무엇인지 알아낼 수 있다. - Each topic is a distribution over words. - Each document is a mixuture of corpuis-wide topics. - Each word is drawn from one of those topics. 하지만 실제로 우리는 document자체만 안다. (topic들이 뭔지 모름, 각각의 비중도 모른다는 것이다.) Q..

Lecture Review/DSBA 2022.03.16

Topic Modeling - 1

관련 예제 코드는 여기를 확인하면 됩니다. Topic Model - corpus에 존재하는 단어 중 topics k개를 정의하여 어떤 단어가 많이 발생하는지 알 수 있다. - 특정 topic이 얼만큼의 비중을 가지고 섞여있는지 알 수 있다. Disadvantage of LSA - data가 normally distributed data이어야 한다. - term occurrence가 정규분포를 따르지 않는다. - still, tf-idf(weighted matrix) 사용 시에는 좋은 성능을 보인다. Probabilistic Topic Model : Generative Approach - 문서는 topic의 distribution, topic은 word의 distribution이다. - statistica..

Lecture Review/DSBA 2022.03.08

Doc2Vec & Others

고려대 강필성 교수님의 강의를 짧게 요약하였습니다. sentence/paragraph/document-leveld에서 embedding을 보겠습니다. [2015] Document Embedding Paragraph Vector model : Distributed Memory(PV-DM) model - Paragraph vectors are shared for all windows generated from the same paragraph, but not across paragraphs Paragraph ID 는 항상 해당 단어 모델링할 때 같은 값을 가진다. - Word vectors are shared across all paragraphs Paragraph Vector model : Distribu..

Lecture Review/DSBA 2022.03.02

NNLM/Word2Vec/GloVe/FastText

고려대학교 강필성교수님 강의를 짧게 정리하였습니다. [2003] NNLM (Neural Network Language Model) Purpose : one-hot vector의 curse of dimensionality를 해결하겠다. - 각 word는 distributed word feature vector 로 표현할 수 있다. - word sequences in terms 의 probability function로 표현할 수 있다. - probability function의 parameters와 word feature vectors를 동시에 할 수 있다. Why it works? - similar roles (semantically and synthetically)에서 문장을 generalize 할 수..

Lecture Review/DSBA 2022.03.02

Anomaly Detection -2

이상치 탐지 이미지를 우리 눈으로 분류 가지고 있는 사진들은 정면에서 보이는 사진, 우측 치아만 보이거나 좌측 치아만 보이는 경우, 윗 또는 아래 치아가 보이는 경우, 입술이 더 잘 보이는 경우, 치아보다는 입 위주의 사진 등 다양했습니다. 이를 더 확실하게 잡아내기 위해 ㉮ 정면에서 치아의 모습이 보이는 경우 ㉯ 좌측 아래 (또는 위) 치아의 모습 ㉰ 우측 아래 (또는 위) 치아의 모습 등으로 모두 파일을 따로 만들어 분류를 하였습니다. Feature map 추출로 중간점검 저희가 가진 이미지를 이용하여 feature map을 형성하였습니다. 위 사진은 일부만을 캡처하여 온 것이며, 실제로는 feature map이 너무 많이 (사진이 만장 이상이었기 때문에) 쌓였기 때문에 차원을 줄일 필요성을 느꼈습니..

728x90
반응형