728x90

pyTorch 5

[pytorch] 단어와 타입 임베딩

1. 임베딩 - 임베딩 : 이산 타입과 벡터 공간의 포인트 사이에 매핑을 학습하는 것 1.1 임베딩 이유 - 문장에 등장하는 카운트 값은 단어의 빈도에 상응하는데, 이 카운트 기반 표현은 중요한 내용이나 의미가 벡터의 여러 차원에 표현되어서 분산적 표현이라고도 부른다. 분산 표현은 단어가 훨씬 낮은 차원의 밀집 벡터로 표현된다는 사실에서 이름을 따왔습니다. 단어의 의미와 다른 속성이 이 밀집 벡터의 여러 차원에 걸쳐 분산됩니다. - 저차원으로 학습된 밀집 표현은 one-hot vector나 카운트 기반의 벡터와 다른 장점이 있는데, ① 계산이 효율적으로 수행된다. ② 카운트 기반은 여러 차원에 비슷한 정보를 중복해 인코딩한 고차원 벡터를 만듭니다. ③ 매우 고차원 입력은 머신러닝과 최적화에서 실제로 문제..

[pytorch] Feed-forward network

퍼셉트론은 데이터에서 복잡한 패턴을 학습할 수 없다는 단점이 있다. 배타적 논리합(XOR)에 해당하는 데이터 셋을 퍼셉트론은 학습하지 못한다. MLP (MultiLayer Perceptron) - 간단한 퍼셉트론을 구조적으로 확장한 신경망 CNN (Convolutional Neural Network) - 디지털 신호 처리에 사용하는 윈도 필터에 영향을 받아 만든 신경망 - 윈도 특성 덕분에 입력에 있는 국부 패턴을 학습할 수 있다. - 컴퓨터 비전에 아주 적합하고 단어나 문장 같으느 순차 데이터에서 부분 구조를 감지하는 데도 이상적이다. 크게 위의 두 가지를 소개하고 예제도 함께 보겠다. 1. 다층 퍼셉트론 (MLP) - MLP는 많은 퍼셉트론이 모여 있으므로 층의 출력은 출력값 하나가 아닌 벡터이다. ..

[pytorch] 신경망의 기본 구성 요소

퍼셉트론 : 가장 간단한 신경망 $y = f(w * x + b)$ - 선형 함수와 비선형 함수의 조합으로 선형 함수 표현인 $wx + b$ 는 아핀 변환 (affine transform)이라고도 한다. 2. 활성화 함수 (1) 시그모이드 $f(x) = \frac{1}{1+e^{-x}}$ - 입력 범위 대부분에서 매우 빠르게 포화되어 gradient가 0이 되거나 발산하여 부동소수 오버플로가 되는 문제 발생. → 그레이디언트 소실/ 폭주 문제 → 신경망에서 거의 출력층에서만 쓰임 (2) 하이퍼볼릭 탄젠트 $f(x) = tanh x = \frac{e^x - e^{-x}}{e^x + e^{-x}}$ - (-∞,∞) 범위의 실숫값을 [-1, 1]로 바꾼다. (3) 렐루 $f(x) = max(0, x)$ - gr..

[pytorch] nlp기술 빠르게 훑어보기

github 확인해보기 2.1 말뭉치, 토큰, 타입 - 말뭉치(corpus) : 원시 텍스트(ASCII나 UTF-8)와 이 텍스트에 관련된 메타데이터 - 토큰(token) : 일반적으로 문자를 연속된 단위로 묶음 - 샘플 / 데이터 포인트 : 메타데이터가 붙은 텍스트 - 토큰화(tokenization) : 텍스트를 토큰으로 나누는 과정 - 타입(type) : corpus에 등장하는 고유한 token ※ 특성공학 (feature engineering) : 언어학을 이해하고 NLP 문제 해결에 적용하는 과정 2.2 유니그램, 바이그램, 트라이그램, ... , n-그램 N-그램 : 텍스트에 있는 고정 길이(n)의 연속된 token sequence - unigram : 토큰 한 개, bigram : 토큰 두 개..

[pytorch] Intro

[파이토치로 배우는 자연어처리] 교재 참고 처음부터 공부하는 마음으로 책 정리를 해보았다. 1.1 지도학습 - 머신러닝에서 지도 또는 지도 학습은 샘플(observation)에 대응하는 예측하는 값(target)의 정답을 제공하는 방식이다. - sample : 예측 시 사용하는 아이템. 즉, input - target : sample에 상응하는 label, 또는 ground truth - model : target label을 예측하는 함수 - parameter : 모델을 규정함. weight라고도 불림. - predict : estimate $\hat{y}$ - loss function : 훈련 데이터에 대한 예측이 타깃과 얼마나 멀리 떨어져 있는지 비교 ①..

728x90
반응형