728x90

Lecture Review 20

[AWS] Day2 Data & AI Roadshow

[Data 분석의 트렌드] - 이동욱 GTM SA AI 시대를 맞이하여 더 높은 품질의 데이터를 제공해 줄 수 있는 데이터 플랫폼과 늘어나는 다양한 데이터 소스들 사이에서 데이터 플랫폼을 가치 있게 유지할 수 있도록 Zero ETL Data 통합, Data Sharing 처리, SMUS 사용에 관련한 AWS의 전체적인 기능에 대한 아키텍처를 제시 1. AI 의 활용 AI > 어플리케이션 생성 > 데이터 소스 증가 > 데이터 수집 문제 > Zero ETL, Streaming Ingestion > RAG 기반 데이터 생성 > Text to SQL > 데이터 품질 문제 > Multi Cluster 데이터 처리, SageMaker Unified Studio (semantic Layer), Glue..

Lecture Review/AWS 2026.04.15

[AWS] Day1 Data & AI Roadshow

[Agent Core Memory] 1. short/long term memory (dynamodb ->aurora 자동 메모리 계층화)- 관리형 메모리 서비스 (별도 인프라 구축 없이)- 기본 대화 컨텍스트 저장 - 간편한 통합 및 사용 (bedrock agent 와 원클릭 연동)- AgentCore Memory (메모리 레코드 생성/수정 시 > 자동 푸시 kinesis data streams→ 확장성, 성능 최적화, 고급 기능, 데이터 통합, 비용최적화 등 [AI/ML 워크로드를 위한 캐시] - 송정우 SA1. ElastiCache for Valkey [특징] - 8.2 버전부터 Vector Search를 지원 - Mem0와 같은 Agentic Memory 라이브러리 연결 쉬움 ..

Lecture Review/AWS 2026.04.14

[AWS DNA 6기] GenAI 5,6주차 및 회고

4주차 오후 2시간 정도를 포함해서 5주차는 팀 별로 개발 및 발표 준비 시간을 가졌다.  처음엔 knowledge base를 활용하였는데, 별 다른 작업을 하지 않았음에도 좋은 성능이 나왔다.  이번엔 직접 RAG을 사용하고, 처음 사용해보는 langchain을 활용하여 전체적인 프로세스를 만들기로 하였다.    우리 회사의 현업 쪽은 법 관련 개정사항을 자주 봐야 하는 어려움이 있다. 특히나 신입 사원이나, 관련 법을 공부하거나 자격증이 없는 분들에게는 어려울 수 있다. 또한 관련 공부를 하였다 하더라고 모든 것을 기억하기는 아마 쉽지 않을 것이다. 이를 토대로 현업에 사용하기 좋은 학습된 생성형 ai를 만드는 것이 우리의 목표이다.    사용된 아키텍처는 거의 비슷한 형태이다.  학습에 필요한 자료..

Lecture Review/AWS 2024.07.05

[AWS DNA 6기] GenAI 4주차

[4주차]   RAG 시스템이 프로덕션 환경에서 잘 안된다면?   → 컨텍스트를 잘 가져오는지, 안의 정보가 명확한지 파악해야 한다.  컨텍스트를 잘 가져오기 위해서는,  Context Retriever  (1) semantic search     ( + ) 키워드가 꼭 일치하지 않더라도 의미론적으로 유사한 검색 결과를 반환   ( -  ) 검색 결과가 임베딩 품질에 의존도가 높음   ( -  ) 단순 가까운 문장을 반환하므로 실제 답변과 관련 없을 수도 있음  (2) lexical search    ( + ) 특정 도메인 용어를 검색하기에 용이   ( + ) 정확도   ( -  ) 오타 및 동의어에 취약 → 두 가지의 장점을 살린 hybrid search    : 산술 평균 기법을 사용하여 두 검색 결..

Lecture Review/AWS 2024.07.04

[AWS DNA 6기] GenAI 3주차

[3주차] [오전] 항상 첫 시작은 지난주 내용 정리와 퀴즈로 진행되었다.   - Amazon Q : 소프트웨어 개발을 가속화하고 회사의 내부 데이터를 활용하기 위한 가장 유능한 생성형 AI 기반 어시스턴트로, 사용자에 따라 여러 가지 ai를 사용할 수 있다.   Amazon Q Business : 엔터프라이즈 시스템의 데이터 및 정보를 기반으로 질문에 답하고, 요약을 제공하고, 콘텐츠를 생성하고, 작업을 안전하게 완료할 수 있는 생성형 AI 기반 도우미이다. 이를 통해 직원들은 더 창의적이고 데이터 중심적이며, 효율적이고 준비성과 생산성을 높일 수 있다.        2.  Amazon Q Developer  : 소프트웨어 개발 시 사용할 때 유용한 ai 도우미이다. 코드 생성, 디버그등 짧은 시간 내..

Lecture Review/AWS 2024.07.04

[AWS DNA 6기] GenAI 1,2주차

[1 주차]  첫 주인만큼 어느 회사에서 왔는지, 어떤 팀에서 왔는지와 GenAI 개념을 이해하고, AWS를 통해 GenAI 기반 아키텍처를 구성할 수 있는 다양한 서비스를 알아보는 시간을 가졌다. 또한 각자의 회사가 만들고자 하는 기능(MVP)의 초안을 AWS Working Backwards 프로그램을 통해 기획하는 시간을 가졌다.  6주의 기간을 거치며 각 회사에서 생성형 AI를 사용한 프로젝트를 하게 된다.   작년과 달라진 GenAI의 동향을 보았을 때, 작년까지는 chatgpt의 열풍이 불며 이를 믿어도 될지, 사용에 다른 불이익이 없을 지에 대해 관심을 가졌다면, 올해부터는 어떻게 커스터마이즈하고 더 효율적으로 사용할지를 생각하는 방향으로 바뀌었다.  aws에서 기본 FM을 사용하여 커스터마이..

Lecture Review/AWS 2024.06.13

[2019] T5 : text to text transformer

[2019] Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer T5 : 여러 task가 존재할 때 이 task 자체를 text로 변환하고 input값과 함께 넣어주면 output값 또한 text로 뽑아낸다고 설명합니다. main idea ① text to text e.g.) - grammar check dataset (CoLA) original input : sentence : "I am a great man." original target : 1 processed input : CoLA sentence : "I am a great man." processed target : acceptable - Sentiment da..

Lecture Review/DSBA 2022.03.23

[2019] BART

[2020] BART : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART - seq2 seq model을 pretrain 시키는 denoising autoencoder입니다. - bidirectional 하게 autoregressive transformer를 진행하였다는 점입니다. - 위의 그림과 같이 encoder에서는 noise input을 주고 decorder에서는 따로 하지 않았습니다. Noise 방법 다음처럼 ABC. DE. 의 두 sentence가 있다고 가정하여보겠습니다. ① token masking - 임의의 token을 [mask]로 교..

Lecture Review/DSBA 2022.03.23

[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach

[2019] RoBERTa : A Robustly Optimized BERT Pretraining Approach Main Idea : BERT는 아직 Underfitted model라는 것을 발견하여 이에 대한 가장 최적화된 BERT 만들어 보는 것 ① model의 학습시간 증가, batch size 키우고 train data 증가시키기 : pre-train에서 데이터 양을 늘릴수록 downstream task에서 성능이 증가하였다. ② NSP를 제거하였다. ③ longer sequence를 추가하였다. (즉, train data에서도 길이가 긴 sequence를 학습을 시켜보았다.) ④ masking pattern을 dynamic 하게 주었다. : BERT는 pre-train 전에 masking을 진..

Lecture Review/DSBA 2022.03.23

[2019] XLNet : Generalized Autogressive Pretrainig for Language

[AE와 AR] auto encoding - word sequence가 주어지면 x2를 mask 한 corrupted sequence가 주어질 것이고 이 mask 된 자리를 예측하는 것이 목적 - likelihood는 최대화하는 값을 구하는 것이다. ▶ 문제점 : [mask] token이 독립적으로 예측되기 때문에 token 사이의 dependency를 학습할 수가 없다. fine-tuning 과정에서 [mask] token이 등장하지 않기 때문에 pre-training과 fine-tuning 사이에 discrepancy 발생하게 된다. auto regressive - word sequence가 주어지고 x1, x2, x3가 있을 때 x4의 값을 예측하는 확률이 최대가 되는 값을 구하는 것이다. ▶ 문제..

Lecture Review/DSBA 2022.03.23
728x90
반응형