728x90

전체 글 128

AugGPT : Leveraging ChatGPT for Text Data Augmentation

[2023] AugGPT : Leveraging ChatGPT for Text Data Augmentation 본문의 논문은 다음 링크를 확인해 주세요. Abstract text augmentation은 여전히 challenge한 부분이지만, 그만큼 사용하는 방법 또한 단순하다고 느낀다. 지난번에 알아본 방법론에서는 동의어 대체, 랜덤 하게 삭제 그리고 랜덤 하게 단어 삽입하는 방법이 있다. 단순하지만 효과적인 text augmentation이지만, 한국어에는 아직 그리 좋은 성능을 보이지 않는다고 생각한다. 그리고 작년부터 많이 언급된 ChatGPT 또한 많은 이목을 끌어오고 있다. 본 논문의 저자들은 이 ChatGPT를 활용하여 text augmentation을 하는 방식을 생각하였는데, 제목부터 흥..

[OCR] EAST text detection w.pytesseract

ocr 관련 플젝을 위해 공부할 겸, 기본적으로 사용되는 모델을 가져와보았다. 일반적으로 OCR에서 gradient를 적용하고 단락으로 그룹화하여 조건식으로 특징을 입력하여 찾는다. 문제는 통제되지 않은 촬영 환경에서 촬영한 사진에서 텍스트를 감지하는 것은 매우 어렵다는 것이다. 시야각은 텍스트와 평행하지 않고 빛이나 조명에 의해 지나치게 어둡거나 밝을 수도 있다. 사용한 모델은 Zhou et al.의 2017년 논문에 나와 있으며, 궁금하면 읽어보면 좋을 듯하다. EAST (an Efficient and Accurate Scene Text detector) 문자 감지 모델은 Text가 흐리거나 기울어진 환경에서도, 부분적으로 가려지고 경우에도 찾아낼 수 있는 딥러닝 문자 감지기이다. 논문에 따르면 EA..

[2021] Revisiting the Performance of iALS on Item Recommendation Benchmarks

[2021] Revisiting the Performance of iALS on Item Recommendation Benchmarks Steffen Rendle, Walid Krichene, Li Zhang, Yehuda Koren 본문의 논문은 ACM RecSys paper로, 링크를 확인해 주세요. Abtract google에서 낸 논문으로, 추천 시스템의 트릭을 발견하여 조금 더 잘 적용해보았다고 한다. 기존의 SOTA모델과 경쟁이 될 정도로 성능이 좋은 편은 아니지만, 기존의 것을 사용한 update된 논문 정도로 생각하면 좋을 듯하다. Introduction iALS (implicit Alternating Least Square)는 implicit 피드백을 통해 top-n 아이템 추천을 목적으..

[개발환경] RTX 5000 Ubuntu 22.04 서버 환경 구축

개발환경 구축할 때, 매번 온라인으로 파일을 그대로 가져와 있는 코드를 사용하거나, 간단한 방법으로 진행하였지만, 이번엔 서버 환경 (Ubuntu) 에서 어떻게 하면 되는지 정리해보려 한다. 1. nvidia graphic driver 2. CUDA 3. cuDNN까지 설치하는 방법을 보도록 하자. GeForce RTX 5000 Ubuntu 22.04 CUDA 12.0 인프라팀에서 CUDA를 설치해 주신다고 하셔서 위 버전으로 맞춰주셨다. 하지만 CUDA 12.0과는 tensorflow나 pytorch가 맞는 버전이 없어서 11.8로 다시 재설치하였다. sudo apt-get update sudo apt install -y ubuntu-drivers-common 이는 기본적으로 설치한다고 하지만 일단 나..

개발환경/Dev 2023.08.24

[CUDA] CUDA 11.8 설치 및 사용

https://subeen-lab.tistory.com/90 [pytorch] cuda 10.2 설치 및 사용1. 개요 코드를 돌리다 보면 용량이 너무 커서 런타임이 끊기는 경우가 있다. 코랩에서 사용할 수도 있지만, 코랩 또한 기본 기준으로 9시간이 지나면 런타임이 끊기고 다시 돌리려면 약 12시간을subeen-lab.tistory.com  이 전에 그래픽 카드에 맞춰 10.2를 설치하였는데, 이번에 조금 더 좋은 사양을 가지게 되어 다른 버전으로 깔아보려한다.   1. 그래픽 카드 확인  먼저 그래픽 카드가 어떤 것인지 확인해야 한다.   장치 관리자를 들어가 디스플레이 어댑터를 눌러 확인한다. 내 컴퓨터에는 RTX 4090이 있으므로 이를 기준으로 정리하겠다.    2. 그래픽 카드 확인 https..

개발환경/CUDA 2023.08.24

DeepFM : A Factorization-Machine based Neural Network for CTR Prediction

[2017] DeepFM : A Factorization-Machine based Neural Network for CTR Prediction Huifeng Guo, Ruiming Tang, Yunming Ye, Zhenguo Li, Xiuqiang He 본문의 논문은 링크를 확인해 주세요. Introduction CTR (Click-Through Rate) · 추천된 아이템을 유저가 클릭할 확률을 뜻한다. · 대부분의 추천 시스템은 이 확률의 최대화를 목표로 한다. CTR 예측을 위한 user의 implicit feature interaction 예시) · 유저들의 식사 시간(시간)에 음식 배달 앱(앱 종류)을 자주 다운로드 한다. → CTR 신호 : 시간과 앱 종류 사이의 order-2 interac..

FM (Factorization Machine)

추천 시스템에서 기반이 되는 Factorization 에 대해 간략히 정리하고자 한다. MF (Matrix Factorizatoin) Matrix Factorization은 가장 대중적인 Latent Factor model로, SVD(Singular Value Decomposition)과 유사하게 유저와 아이템을 $f$차원의 latent factor space로 매핑한다. $f$개의 latent factor 로 표현된 user, item vector $\mathbf{p}_u, \mathbf{q}_i$의 내적으로 둘 사이의 interaction $\hat{\mathbf{r}}_{ui}$를 다음과 같이 구한다. $\hat{\mathbf{r}}_{ui} = \mathbf{p}_u \mathbf{q}_i$ Fa..

Neural Collaborative Filtering (NCF)

[2017] Neural Collaborative Filtering Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, Tat-Seng Chua 본문의 논문은 ICER paper로, 링크를 확인해 주세요. Introduction 추천 시스템은 이전에도 궁금하여 다루어 보았던 내용으로, collaborative filtering기법에서 가장 대표적으로 많이 사용되는 matrix factorization (MF)이 있다. 이는 유저 또는 아이템의 잠재적 특성을 가진 벡터를 사용하여 곱하여 계산하는 방식이다. 즉, 아이템에 대한 사용자의 상호작용을 내적을 이용하여 모델링한 것이다. 추천 시스템에 적용되는 가장 유명한 것으로 넷플릭스를 뽑을 수 있다. 이는..

KG graph with ESG data

앞선 실험을 엎은 후, 새로운 아이디어를 찾던 중, 원래 graph와 recommendation system에 관심이 있어 고민을 하였다. 왜냐.. 공부도 새로 시작해서 알아봐야 했고, 일단 어려웠기 때문이다. 그러던 중, KG로 맘을 굳히고 공부를 해보기로 하였다. 문장이 clustering이 되어서 저런 식의 이쁜 그래프를 만들기를 원했다. 포부도 좋았고, 이게 된다면 석사 한 학기만에 졸업 논문은 끝..이라고 생각할 정도로 맘에 들었다. 하지만, 물론 나는 쉽게 생각했던 것이었으며... 결과는 꽤나 참담(?)했다. 일단 한국어 triplet을 만드는 것부터 어려웠다. 여러 손 쉬운 방법도 사용해 보고, 끝이 보이지 않을 rule-based도 사용해 보았지만 한국어 triplet은 너무 어려운 것....

N label classification with ESG data

연구실 자체 데이터로, esg를 주제로 한 데이터셋을 구축하였다. 대략 6 ~ 12 개월 동안 데이터 수집 및 전처리, 그리고 라벨링을 한 것이다. 데이터는 우리나라 대기업에서 발간한 esg 보고서를 사용하였고, 금융, 자동차, 전자, 중공업, 항공 다섯 가지 섹션으로 나뉘며 전체 데이터의 수는 약 10만 개다. 여러 명이 함께 머리를 대고 직접 내용을 읽어보며, k-esg 가이드라인의 내용과 일치하는지 확인하며 라벨링을 하였다. 이를 바탕으로 KoBERT를 사용하여 분류 성능을 보았고, 5 class의 분류 성능이 거의 85%에 가깝게 좋은 결과를 보였다. 이와 관련된 논문은 다음을 확인하면 된다. 여기에 이어 esg project를 수행하기 위해 데이터를 알고 어떻게 사용되면 좋을지 공부하면서 개인적..

728x90
반응형