Subeen lab

[pytorch] nlp기술 빠르게 훑어보기

github 확인해보기 2.1 말뭉치, 토큰, 타입 - 말뭉치(corpus) : 원시 텍스트(ASCII나 UTF-8)와 이 텍스트에 관련된 메타데이터 - 토큰(token) : 일반적으로 문자를 연속된 단위로 묶음 - 샘플 / 데이터 포인트 : 메타데이터가 붙은 텍스트 - 토큰화(tokenization) : 텍스트를 토큰으로 나누는 과정 - 타입(type) : corpus에 등장하는 고유한 token ※ 특성공학 (feature engineering) : 언어학을 이해하고 NLP 문제 해결에 적용하는 과정 2.2 유니그램, 바이그램, 트라이그램, ... , n-그램 N-그램 : 텍스트에 있는 고정 길이(n)의 연속된 token sequence - unigram : 토큰 한 개, bigram : 토큰 두 개..

Deep Learning/Natural Language Processing 2022.07.18

[pytorch] Intro

[파이토치로 배우는 자연어처리] 교재 참고 처음부터 공부하는 마음으로 책 정리를 해보았다. 1.1 지도학습 - 머신러닝에서 지도 또는 지도 학습은 샘플(observation)에 대응하는 예측하는 값(target)의 정답을 제공하는 방식이다. - sample : 예측 시 사용하는 아이템. 즉, input - target : sample에 상응하는 label, 또는 ground truth - model : target label을 예측하는 함수 - parameter : 모델을 규정함. weight라고도 불림. - predict : estimate $\hat{y}$ - loss function : 훈련 데이터에 대한 예측이 타깃과 얼마나 멀리 떨어져 있는지 비교 ①..

Deep Learning/Natural Language Processing 2022.07.18

[Github] VScode에서 Github 업로드 하기

vscode를 처음 접해보면서 아나콘다와 비슷하면서도 다른 거 같아 애를 먹었다. jupyter notebook이나 colab은 파일을 하나하나 올려야 했지만, vscode에서 바로 github로 파일 전체를 업로드할 수 있어 간편했다. 순서는 다음과 같다. GitHub에서 repository 생성 해당 repository의 URL복사 vscode에서 Source Control 아이콘 클릭 Initialize Repository 버튼 클릭(로컬 repository 초기화) CHANGES의 '+'버튼 클릭(모든 파일 추가) Commit(체크모양) 아이콘 클릭 Commit 내용 입력 후 엔터(로컬 repository에 커밋) Terminal에서 "git remote add origin + '2번에서 복사한 ..

개발환경/Git 2022.07.15

[2022] Learn to Adapt for Generalized Zero-Shot Text Classification

[acl 2022 long paper] Learn to Adapt for Generalized Zero-Shot Text Classification Yiwen Zhang, Caixia Yuan∗ , Xiaojie Wang, Ziwei Bai, Yongbin Liu text classification에 대한 연구를 하던 중, acl 2022에 올라온 zero-shot에 대한 논문을 읽어 보았다. 읽으면서 거의 처음 들어보는 부분이 많아 여러 번 읽고 찾아본 후에 이해를 하였다. Intro 일반적인 deep-learning에서는 training에 사용된 class만을 예측한다. 즉, unseen data를 seen class로 분류를 하게 된다. 다음 그림으로 쉽게 이해하자면, 일반적으로 CNN에 고양이, ..

Paper Review/Zero Shot & Few Shot 2022.07.13

Few Shot (with Meta-learning)

zero shot 논문을 읽던 중, few shot에 대한 언급을 하여 짧게 정리하였다. Few Shot : 말 그대로, few (적은) 데이터도 잘 분류를 한다는 것. 하지만, 헷갈리면 안되는 부분이 있다. few data를 잘 분류한다는 것이 데이터가 적다는 것을 의미하는 것이 아니기 때문이다. 쉬운 예시를 들어보겠다. 위의 support set에 우리는 생전 처음보는 armadilo와 pangolin의 사진이 있다. 그 후, 우리가 query의 사진을 보고 어떤 사진이냐고 물어본다면 뭐라고 대답할까? 모든 사람들이 pangolin이라고 잘 대답할 것이다. Traditional한 deep learning model은 이와 같이 각 클래스별 사진 단 두 장을 가지고 query 이미지를 맞출 수 있을까?..

Paper Review/Zero Shot & Few Shot 2022.07.13

Capsule Network

zero shot에 관한 논문을 보던 중, capsule network를 처음 접하게 되었다. 관련 자료를 찾아보며 짧게 이해할 수 있도록 정리하였다. Capsule Network - capsule network : CNN에서 pooling의 문제(max, average..)를 극복할 수 있게 만들어졌다. pooling 문제의 예시로는 max pooling이 있다. max pooling은 pooling 시 가장 큰 값만 사용하므로, 가치있는 정보를 잃어버리는 문제가 있다. - Neuroscience에서 영감을 얻어 인간의 뇌와 같은 module을 가진다. - Image rotation 문제를 해결하기 위해, 위치, 색상, 크기, 방향, 속도, 텍스쳐 등의 dynamic한 방법을 이용하였다. 기존의 CNN..

Paper Review/Zero Shot & Few Shot 2022.07.13

[Object Detection] YOLO : You Look Only Once

객체 탐지 (Object Detection) 한 이미지에서 객체와 그 경계 상자(bounding box)를 탐지 객체 탐지 알고리즘은 일반적으로 이미지를 입력으로 받고, 경계 상자와 객체 클래스 리스트를 출력 경계 상자에 대해 그에 대응하는 예측 클래스와 클래스의 신뢰도(confidence)를 출력 Applications 자율 주행 자동차에서 다른 자동차와 보행자를 찾을 때 의료 분야에서 방사선 사진을 사용해 종양이나 위험한 조직을 찾을 때 제조업에서 조립 로봇이 제품을 조립하거나 수리할 때 보안 산업에서 위협을 탐지하거나 사람 수를 셀 때 Bounding Box 이미지에서 하나의 객체 전체를 포함하는 가장 작은 직사각형 IOU(Intersection Over Union) 실측값(Ground Truth)..

Deep Learning/Computer Vision 2022.04.20

백준 1193

#1193 x = int(input()) d = 1 # 대각선 while x > d: x -= d d += 1 if d % 2 == 0: up = x down = d - x + 1 elif d % 2 == 1: up = d - x + 1 down = x print(up,"/",down,sep="") 이 문제는 규칙을 알지만 수식으로 나타내는 것을 어떻게 해야할 지 몰라 많이 고민했던 부분이다. 결국 검색의 도움을 받아 코드를 완성했지만 다시 생각해내서 풀라고 하면 다시 오랜 고민을 할 것같은 문제이다. 수학 문제 부분은 규칙은 이해가 가지만 코드로 구현하는 부분이 너무 어렵다는 생각이 든다. 다시 봐야 할 문제 중 하나!

Deep Learning/Algorithm 2022.04.14