Lecture Review/DSBA

Topic Modeling - 1

frances._.sb 2022. 3. 8. 12:50
728x90

관련 예제 코드는 여기를 확인하면 됩니다.

 

  • Topic Model

- corpus에 존재하는 단어 중 topics k개를 정의하여 어떤 단어가 많이 발생하는지 알 수 있다.

- 특정 topic이 얼만큼의 비중을 가지고 섞여있는지 알 수 있다.

 

  • Disadvantage of LSA

- data가 normally distributed data이어야 한다.

- term occurrence가 정규분포를 따르지 않는다.

- still, tf-idf(weighted matrix) 사용 시에는 좋은 성능을 보인다.

 

  • Probabilistic Topic Model : Generative Approach

- 문서는 topic의 distribution, topic은 word의 distribution이다.

- statistical inference는 data의 pobabilistic model의 fit

- Generative approach : 단어의 generative probability를 최대화 하는 모델을 만들기 위한 노력

 

 

Latent Structure

  tern-document matrix로 생각하여 보겠다.

- 모든 term과 doc이 있어서 아주 크고, 보이는 대로 넣었기 때문에 lack of structure

  → "해당 객체를 좀 더 쉽게 설명 + 숨겨진 latent structure가 있을 것이다 (가정)" 으로 structure을 발견하여 보자.

 

Matrix Decomposition

  SVD 관점에서 보았을 때, 

특정 matrix를 위의 그림과 같이 왼쪽오른쪽으로 factorization하는데, 여기서 q가 latent structure의 개수가 된다.

n개의 term들은 q개의 structure과 서로 연관있고, m개의 문서들 역시 q개의 structure의 조합으로 표현될 수 있을 것이다.

 

- Factors are typically constrained to be thin. (rank보다 훨씬 더 적은 갯수의 수를 찾겠다는 것.)

 

  • MLE(Maximum Likelihood Estimation)

- 어떤 w 단어가 d라는 document에 발생할 확률을 볼 때, 모든 단어에 대해 존재하는 모든 d에 대한 모든 단어를 count하고(분모) 해당 단어w의 등장 횟수(분자)를 계산하여 확률 계산. : 문서에서 단어가 등장할 확률

- but, document에 존재하지 않는 단어는 0 probability를 가진다.

   → 다른 문서에 있는 확룰적 분포를 더하여 계산하면 더 smoothing 될 것.

 

 

[2005] pLSA(Probability Latent Semantic Analysis)

 

중간에 latent concept가 있을 때,

- d는 document, θ는 구해야 할 parameter가 있을 때, z라는 latent vector를 추정할 수 있을 것. 그리고 그에 대한 적절한 단어들이 판단될 것이다.

- prior knowledge는 없고, term co-occurrences를 가지고 알아내는 것이다.

 

ㄴstructure modeling assumption(mixture model)

- P_lsa(w|d) ; d : document language model 

- ∑_z ; z : latent concepts or topics

- P(w|z;θ) : concept에 대해 어떤 단어를 판단할 것인가           -------------> model fitting

- P(z|d;π) : document에 따라 단어들이 얼마나 뒤섞여 있는가   -------------> model fitting

 

 

 

728x90
반응형

'Lecture Review > DSBA' 카테고리의 다른 글

[2014] Seq2Seq Learning with Neural Networks  (0) 2022.03.16
Topic Modeling - 2  (0) 2022.03.16
Dimensionality Reduction  (2) 2022.03.04
Doc2Vec & Others  (0) 2022.03.02
NNLM/Word2Vec/GloVe/FastText  (0) 2022.03.02