728x90

Deep Learning 53

[OCR] scale 의 여러 방법

사진 중에 빛 반사가 있는 이미지는 텍스트가 인식이 안되기 마련이다. 그런 부분을 어떻게 수정할 수 있을지 확인하다가 다양한 스케일링 방법을 알게 되었다. 간단하지만 예시와 함께 보도록 하겠다. https://subeen-lab.tistory.com/113 [OCR] EAST text detection w.pytesseract ocr 관련 플젝을 위해 공부할 겸, 기본적으로 사용되는 모델을 가져와보았다. 일반적으로 OCR에서 gradient를 적용하고 단락으로 그룹화하여 조건식으로 특징을 입력하여 찾는다. 문제는 통제되지 subeen-lab.tistory.com 위의 코드를 바탕으로 가져왔으며, 참고 하면 좋을 것이다. org_image = cv2.imdecode(image_nparray, cv2.IMR..

[구름톤 챌린지] 4일차_완벽한 햄버거 만들기

N = int(input()) ingredients = list(map(int, input().split())) # 재료 list로 받아오기 mx = max(ingredients) # 가장 큰 값을 찾아서 mx_ind = ingredients.index(mx) # index 값을 추출 left = ingredients[:mx_ind+1] # index 기준 왼쪽 list right = ingredients[mx_ind:] # index 기준 오른쪽 list를 만든다. if sorted(left) == left and sorted(right,reverse = True) == right: print(sum(ingredients)) # 왼쪽으로는 sort했을 때 기존 left랑 같고, 오른쪽은 sort 역 방..

[구름톤 챌린지] 2일차_프로젝트 매니징

N = int(input()) # N개의 기능 개발 추가 T,M = map(int,input().split()) # T시 M분 sum_c = 0 # sum 초기화 for i in range(N): c = int(input()) sum_c += c # 받아오는 시간 만큼 다 더하기 def solution(N,T,M,c): hour = sum_c // 60 minute = sum_c % 60 # 시, 분 결과 값 result_T = T + hour result_M = M + minute # 기존 받아온 시간에서 더해주기 if result_M >= 60: result_M -= 60 result_T += 1 # 분이 60이상이면 빼고 시+1 print(result_T%24, result_M) # 24시는 00시..

[OCR] EAST text detection w.pytesseract

ocr 관련 플젝을 위해 공부할 겸, 기본적으로 사용되는 모델을 가져와보았다. 일반적으로 OCR에서 gradient를 적용하고 단락으로 그룹화하여 조건식으로 특징을 입력하여 찾는다. 문제는 통제되지 않은 촬영 환경에서 촬영한 사진에서 텍스트를 감지하는 것은 매우 어렵다는 것이다. 시야각은 텍스트와 평행하지 않고 빛이나 조명에 의해 지나치게 어둡거나 밝을 수도 있다. 사용한 모델은 Zhou et al.의 2017년 논문에 나와 있으며, 궁금하면 읽어보면 좋을 듯하다. EAST (an Efficient and Accurate Scene Text detector) 문자 감지 모델은 Text가 흐리거나 기울어진 환경에서도, 부분적으로 가려지고 경우에도 찾아낼 수 있는 딥러닝 문자 감지기이다. 논문에 따르면 EA..

KG graph with ESG data

앞선 실험을 엎은 후, 새로운 아이디어를 찾던 중, 원래 graph와 recommendation system에 관심이 있어 고민을 하였다. 왜냐.. 공부도 새로 시작해서 알아봐야 했고, 일단 어려웠기 때문이다. 그러던 중, KG로 맘을 굳히고 공부를 해보기로 하였다. 문장이 clustering이 되어서 저런 식의 이쁜 그래프를 만들기를 원했다. 포부도 좋았고, 이게 된다면 석사 한 학기만에 졸업 논문은 끝..이라고 생각할 정도로 맘에 들었다. 하지만, 물론 나는 쉽게 생각했던 것이었으며... 결과는 꽤나 참담(?)했다. 일단 한국어 triplet을 만드는 것부터 어려웠다. 여러 손 쉬운 방법도 사용해 보고, 끝이 보이지 않을 rule-based도 사용해 보았지만 한국어 triplet은 너무 어려운 것....

N label classification with ESG data

연구실 자체 데이터로, esg를 주제로 한 데이터셋을 구축하였다. 대략 6 ~ 12 개월 동안 데이터 수집 및 전처리, 그리고 라벨링을 한 것이다. 데이터는 우리나라 대기업에서 발간한 esg 보고서를 사용하였고, 금융, 자동차, 전자, 중공업, 항공 다섯 가지 섹션으로 나뉘며 전체 데이터의 수는 약 10만 개다. 여러 명이 함께 머리를 대고 직접 내용을 읽어보며, k-esg 가이드라인의 내용과 일치하는지 확인하며 라벨링을 하였다. 이를 바탕으로 KoBERT를 사용하여 분류 성능을 보았고, 5 class의 분류 성능이 거의 85%에 가깝게 좋은 결과를 보였다. 이와 관련된 논문은 다음을 확인하면 된다. 여기에 이어 esg project를 수행하기 위해 데이터를 알고 어떻게 사용되면 좋을지 공부하면서 개인적..

[Neo4j] naver news로 시작하는 시각화

지난 글에서 실패했던 걸 발판 삼아.. 다시 시작! 위 글을 참조하여 작성하였습니다. pip install neo4j 이미 설치했지만 한 번 더 언급하기 pip을 이용해서 neo4j 설치한다. 1. 새 프로젝트 만들기 좌측 상단의 +New를 이용하여 새 프로젝트를 만들 것이다. 네이버 기사를 크롤링 해볼 예정이므로, Project name은 다음과 같이 바꿨다. 그리고 우측 상단의 +Add를 늘러 Local DBMS를 눌러준다. 그러면 화면과 같이 Name 과 Password를 치라고 나와있는데, 자신이 쓰는 편한 걸로 그냥 만들면 된다. 그 후 create를 클릭! 만들어진 project를 누르면 start 버튼이 나올 것이다. 그걸 눌러서 실행을 해주고, 로딩이 끝나면 open을 눌러준다. 그러면 위..

Deep Learning/Graph 2023.01.13
728x90
반응형