728x90

분류 전체보기 129

[2017] SeqGAN_Sequence Generative Adversarial Nets with Policy Gradient

본 논문은 AAAI에 2017년에 게시되었습니다. SeqGAN을 설명하기 전, 어떻게 나오게 된 모델인지 설명을 하고 진행하겠습니다. GAN (Generative Adversarial Net) - G : Generator , 생성자 (도둑) - D : discriminator, 식별자 또는 감시자 (경찰) 장단점 - 장점 : Markov Chain이 전혀 필요 없이 backpropagation만으로 학습이 된다. 특별한 inference가 필요 없다. - 단점 : D와 G는 균형 있게 향상이 되어야 한다. Limitation & how to solve ▣ generating sequences of discrete tokens - difficult to pass the gradient update from..

Paper Review/NLP 2022.03.16

[2014] Seq2Seq Learning with Neural Networks

시작하기 전, 내용을 보아도 이해가 잘 안 된다면 Alamar(Attention) 페이지를 소개합니다. 시각적인 부분도 잘 설명해두었고, 더할 나위 없이 완벽하다고 볼 수 있는 내용이기에 한 번쯤 보는 것을 추천합니다. https://jalammar.github.io/ Jay Alammar – Visualizing machine learning one concept at a time. Visualizing machine learning one concept at a time. jalammar.github.io [2014] Sequence-to-sequence model Sequence-to-sequence model - model의 input에 sequence를 받는다. (words, letters, f..

Lecture Review/DSBA 2022.03.16

Topic Modeling - 2

topic modeling 관련 예제는 여기를 확인하세요. [2012] LDA Documents exhibit multiple topics (배경) 한 document는 여러 개의 topic들이 섞여있을 것이고 (그리고 그게 얼마나 섞여있는지 알아낼 수 있고), 우리는 그런 topic들에서 주로 사용되는 단어가 무엇인지 알아낼 수 있다. - Each topic is a distribution over words. - Each document is a mixuture of corpuis-wide topics. - Each word is drawn from one of those topics. 하지만 실제로 우리는 document자체만 안다. (topic들이 뭔지 모름, 각각의 비중도 모른다는 것이다.) Q..

Lecture Review/DSBA 2022.03.16

Topic Modeling - 1

관련 예제 코드는 여기를 확인하면 됩니다. Topic Model - corpus에 존재하는 단어 중 topics k개를 정의하여 어떤 단어가 많이 발생하는지 알 수 있다. - 특정 topic이 얼만큼의 비중을 가지고 섞여있는지 알 수 있다. Disadvantage of LSA - data가 normally distributed data이어야 한다. - term occurrence가 정규분포를 따르지 않는다. - still, tf-idf(weighted matrix) 사용 시에는 좋은 성능을 보인다. Probabilistic Topic Model : Generative Approach - 문서는 topic의 distribution, topic은 word의 distribution이다. - statistica..

Lecture Review/DSBA 2022.03.08

Doc2Vec & Others

고려대 강필성 교수님의 강의를 짧게 요약하였습니다. sentence/paragraph/document-leveld에서 embedding을 보겠습니다. [2015] Document Embedding Paragraph Vector model : Distributed Memory(PV-DM) model - Paragraph vectors are shared for all windows generated from the same paragraph, but not across paragraphs Paragraph ID 는 항상 해당 단어 모델링할 때 같은 값을 가진다. - Word vectors are shared across all paragraphs Paragraph Vector model : Distribu..

Lecture Review/DSBA 2022.03.02

NNLM/Word2Vec/GloVe/FastText

고려대학교 강필성교수님 강의를 짧게 정리하였습니다. [2003] NNLM (Neural Network Language Model) Purpose : one-hot vector의 curse of dimensionality를 해결하겠다. - 각 word는 distributed word feature vector 로 표현할 수 있다. - word sequences in terms 의 probability function로 표현할 수 있다. - probability function의 parameters와 word feature vectors를 동시에 할 수 있다. Why it works? - similar roles (semantically and synthetically)에서 문장을 generalize 할 수..

Lecture Review/DSBA 2022.03.02

Anomaly Detection -2

이상치 탐지 이미지를 우리 눈으로 분류 가지고 있는 사진들은 정면에서 보이는 사진, 우측 치아만 보이거나 좌측 치아만 보이는 경우, 윗 또는 아래 치아가 보이는 경우, 입술이 더 잘 보이는 경우, 치아보다는 입 위주의 사진 등 다양했습니다. 이를 더 확실하게 잡아내기 위해 ㉮ 정면에서 치아의 모습이 보이는 경우 ㉯ 좌측 아래 (또는 위) 치아의 모습 ㉰ 우측 아래 (또는 위) 치아의 모습 등으로 모두 파일을 따로 만들어 분류를 하였습니다. Feature map 추출로 중간점검 저희가 가진 이미지를 이용하여 feature map을 형성하였습니다. 위 사진은 일부만을 캡처하여 온 것이며, 실제로는 feature map이 너무 많이 (사진이 만장 이상이었기 때문에) 쌓였기 때문에 차원을 줄일 필요성을 느꼈습니..

Anomaly Detection -1

이미지를 이용한 anomaly detection을 수행하였습니다. 치아 사진들을 이용한 anomaly detection이다. 치아의 정면, 좌측, 우측 등 구강 내의 사진과 아무런 사진(anomal)을 넣었을 때, 사진이 치아가 맞는지 분류해내는 단순한 project였습니다. 우리 조에서 사용하였던 model 은 IForest입니다. 간단하게 iforest에 대해 설명을 먼저 하도록 하겠습니다. Isolation Forest 의 motivation은 few and different입니다. The minority consists of fewer instances They have attribute-values, which are vert different from those of normal instanc..

[2019] BigBird : Transformers for Longer Sequences

NLP 관련 논문을 읽기 위해 둘러보던 중, 수학적인 부분이 많은 논문을 보게 되었다. 논문 자체는 짧은 편이라 내용은 금방 이해하였지만 뒷부분에 부가적인 설명을 읽는데 조금 오래 걸렸다. 원리를 더 꼼꼼하게 보고 싶은 사람은 뒷부분을 읽어보기를 추천한다. BigBird의 main idea는 Graph Sparcification이다. self-attention → fully connected graph fully-connected graph → sparse random graph sparse attention mechanism은 expressivity (e.g. contectualized embedding)과 flexibility (e.g. 다양한 downstream task에 적용)의 특징을 가진다. ..

Paper Review/NLP 2022.02.28
728x90
반응형