728x90

Deep Learning 53

[Neo4j] 사용 전 tutorial_실패

이 전부터 계속 관심을 가져온 Knowledge Graph 분야에 쓰일 Neo4j에 관해 살짝 정리해보려 한다. 손으로 직접 kg를 구축하려고 노가다(?)를 한 적 있었는데, 들인 시간 대비 너무 좋지 않은 그래프가 나와 아쉬움이 컸다. 이번엔 조금 더 다듬어 보기 위해 neo4j를 사용하여 그래프를 구축해 볼 예정이다. 그전에 Neo4j에서 기본으로 제공하는 DB를 이용하여 tutorial을 해보도록 하겠다. 1. Neo4j 설치 물론 시작은 설치이다. pip을 이용하여 neo4j를 설치해 준다. 성공적으로 설치가 되었다면 실제 neo4j 프로그램을 설치해야 한다. https://neo4j.com/ Neo4j Graph Data Platform – The Leader in Graph Databases ..

Deep Learning/Graph 2023.01.13

[pytorch] 단어와 타입 임베딩

1. 임베딩 - 임베딩 : 이산 타입과 벡터 공간의 포인트 사이에 매핑을 학습하는 것 1.1 임베딩 이유 - 문장에 등장하는 카운트 값은 단어의 빈도에 상응하는데, 이 카운트 기반 표현은 중요한 내용이나 의미가 벡터의 여러 차원에 표현되어서 분산적 표현이라고도 부른다. 분산 표현은 단어가 훨씬 낮은 차원의 밀집 벡터로 표현된다는 사실에서 이름을 따왔습니다. 단어의 의미와 다른 속성이 이 밀집 벡터의 여러 차원에 걸쳐 분산됩니다. - 저차원으로 학습된 밀집 표현은 one-hot vector나 카운트 기반의 벡터와 다른 장점이 있는데, ① 계산이 효율적으로 수행된다. ② 카운트 기반은 여러 차원에 비슷한 정보를 중복해 인코딩한 고차원 벡터를 만듭니다. ③ 매우 고차원 입력은 머신러닝과 최적화에서 실제로 문제..

[pytorch] Feed-forward network

퍼셉트론은 데이터에서 복잡한 패턴을 학습할 수 없다는 단점이 있다. 배타적 논리합(XOR)에 해당하는 데이터 셋을 퍼셉트론은 학습하지 못한다. MLP (MultiLayer Perceptron) - 간단한 퍼셉트론을 구조적으로 확장한 신경망 CNN (Convolutional Neural Network) - 디지털 신호 처리에 사용하는 윈도 필터에 영향을 받아 만든 신경망 - 윈도 특성 덕분에 입력에 있는 국부 패턴을 학습할 수 있다. - 컴퓨터 비전에 아주 적합하고 단어나 문장 같으느 순차 데이터에서 부분 구조를 감지하는 데도 이상적이다. 크게 위의 두 가지를 소개하고 예제도 함께 보겠다. 1. 다층 퍼셉트론 (MLP) - MLP는 많은 퍼셉트론이 모여 있으므로 층의 출력은 출력값 하나가 아닌 벡터이다. ..

[pytorch] 신경망의 기본 구성 요소

퍼셉트론 : 가장 간단한 신경망 $y = f(w * x + b)$ - 선형 함수와 비선형 함수의 조합으로 선형 함수 표현인 $wx + b$ 는 아핀 변환 (affine transform)이라고도 한다. 2. 활성화 함수 (1) 시그모이드 $f(x) = \frac{1}{1+e^{-x}}$ - 입력 범위 대부분에서 매우 빠르게 포화되어 gradient가 0이 되거나 발산하여 부동소수 오버플로가 되는 문제 발생. → 그레이디언트 소실/ 폭주 문제 → 신경망에서 거의 출력층에서만 쓰임 (2) 하이퍼볼릭 탄젠트 $f(x) = tanh x = \frac{e^x - e^{-x}}{e^x + e^{-x}}$ - (-∞,∞) 범위의 실숫값을 [-1, 1]로 바꾼다. (3) 렐루 $f(x) = max(0, x)$ - gr..

[pytorch] nlp기술 빠르게 훑어보기

github 확인해보기 2.1 말뭉치, 토큰, 타입 - 말뭉치(corpus) : 원시 텍스트(ASCII나 UTF-8)와 이 텍스트에 관련된 메타데이터 - 토큰(token) : 일반적으로 문자를 연속된 단위로 묶음 - 샘플 / 데이터 포인트 : 메타데이터가 붙은 텍스트 - 토큰화(tokenization) : 텍스트를 토큰으로 나누는 과정 - 타입(type) : corpus에 등장하는 고유한 token ※ 특성공학 (feature engineering) : 언어학을 이해하고 NLP 문제 해결에 적용하는 과정 2.2 유니그램, 바이그램, 트라이그램, ... , n-그램 N-그램 : 텍스트에 있는 고정 길이(n)의 연속된 token sequence - unigram : 토큰 한 개, bigram : 토큰 두 개..

[pytorch] Intro

[파이토치로 배우는 자연어처리] 교재 참고 처음부터 공부하는 마음으로 책 정리를 해보았다. 1.1 지도학습 - 머신러닝에서 지도 또는 지도 학습은 샘플(observation)에 대응하는 예측하는 값(target)의 정답을 제공하는 방식이다. - sample : 예측 시 사용하는 아이템. 즉, input - target : sample에 상응하는 label, 또는 ground truth - model : target label을 예측하는 함수 - parameter : 모델을 규정함. weight라고도 불림. - predict : estimate $\hat{y}$ - loss function : 훈련 데이터에 대한 예측이 타깃과 얼마나 멀리 떨어져 있는지 비교 ①..

[Object Detection] YOLO : You Look Only Once

객체 탐지 (Object Detection) 한 이미지에서 객체와 그 경계 상자(bounding box)를 탐지 객체 탐지 알고리즘은 일반적으로 이미지를 입력으로 받고, 경계 상자와 객체 클래스 리스트를 출력 경계 상자에 대해 그에 대응하는 예측 클래스와 클래스의 신뢰도(confidence)를 출력 Applications 자율 주행 자동차에서 다른 자동차와 보행자를 찾을 때 의료 분야에서 방사선 사진을 사용해 종양이나 위험한 조직을 찾을 때 제조업에서 조립 로봇이 제품을 조립하거나 수리할 때 보안 산업에서 위협을 탐지하거나 사람 수를 셀 때 Bounding Box 이미지에서 하나의 객체 전체를 포함하는 가장 작은 직사각형 IOU(Intersection Over Union) 실측값(Ground Truth)..

728x90
반응형