728x90

임베딩 2

[pytorch] 단어와 타입 임베딩

1. 임베딩 - 임베딩 : 이산 타입과 벡터 공간의 포인트 사이에 매핑을 학습하는 것 1.1 임베딩 이유 - 문장에 등장하는 카운트 값은 단어의 빈도에 상응하는데, 이 카운트 기반 표현은 중요한 내용이나 의미가 벡터의 여러 차원에 표현되어서 분산적 표현이라고도 부른다. 분산 표현은 단어가 훨씬 낮은 차원의 밀집 벡터로 표현된다는 사실에서 이름을 따왔습니다. 단어의 의미와 다른 속성이 이 밀집 벡터의 여러 차원에 걸쳐 분산됩니다. - 저차원으로 학습된 밀집 표현은 one-hot vector나 카운트 기반의 벡터와 다른 장점이 있는데, ① 계산이 효율적으로 수행된다. ② 카운트 기반은 여러 차원에 비슷한 정보를 중복해 인코딩한 고차원 벡터를 만듭니다. ③ 매우 고차원 입력은 머신러닝과 최적화에서 실제로 문제..

임베딩 Embedding

Embedding 워드 임베딩은 단어를 컴퓨터가 이해하고, 효율적으로 처리할 수 있도록 단어를 벡터화하는 기술 워드 임베딩은 단어의 의미를 잘 표현해야만 하며, 현재까지도 많은 표현 방법이 연구 워드 임베딩을 거쳐 잘 표현된 단어 벡터들은 계산이 가능하며, 모델 투입도 가능 IMDB 데이터를 이용한 코드 연습입니다. 마지막에 시각화 부분은 사이트가 오픈되며 3차원으로 확인이 가능합니다. 자세한 코드는 여기서 확인해주세요.

728x90
반응형