[2024] The Amazon Nova Family of Models:Technical Report and Model Card
Amazon Artificial General Intelligence
본문의 논문은 amazon science paper로, 링크를 확인해 주세요.
Summary
아마존에서 발표한 NOVA 모델이 다양한 방식으로 나왔다.
1. NOVA-Pro : 다양한 task에서 정확성, 속도, 비용 측면에서 높은 수용성을 나타내는 멀티모달 모델
2. NOVA-Lite : text, image, documents, video의 처리가 가볍고 빠른 저비용 멀티모달 모델
3. NOVA-Micro : 응답시간이 매우 빠른 저비용 text처리 모델
4. NOVA-Canvas : 다양한 커스텀을 통해 수준 높은 이미지를 만들어내는 이미지 생성 모델
5. NOVA-Reel : 높은 수준의 비디오 생성 모델
Frontier Intelligence
NOVA에 대해 확인하기 전, 이 모델의 바탕이 되는 Frontier Intelligence가 뭔지 먼저 간략하게 알아보도록 하겠다.
- Frontier AI
특정한 기술의 사용 여부보다는 최종 능력과 악용 가능성에 초점을 두고 뛰어난 능력을 지닌 범용 AI이면서 다양한 작업에서 현재의 고도화된 AI와 비슷하거나 더 뛰어난 성능을 보여주는 모델로,
아직까지는 광범위한 데이터를 supervised learning 하는 FM과 유사한 특성을 지니고 있다.
수많은 프런티어 AI들이 웹 서비스, API, chatbot, opensource 형태로 모델 자체와 학습 코드가 많이 배포되어 있다. 이로 인해 많은 사람들이 쉽게 접근 가능하고, 다운스트림 작업도 활용 가능하여 안전에 민감한 분야에도 사용될 수 있다.
Nova는 복잡한 언어 task에서 SOTA를 달성하였고, 여러 intelligence tier(MMLU, GPQA, MATH, Big-Bench Hard.. )에서 새로운 기준이 되는 benchmark로 제안된다.
Compare with Benchmarks
위에서 언급한 모델들과의 성능 비교를 많이 해두었는데, 대부분 좋은 성능을 보이고 있는 수치였으며, 내가 중점으로 본 성능은 hallucination이었다.
그 이유는, 생성형 ai를 사용해 보니 본인의 생각대로 대답을 하거나, 생각지도 않은 곳에서의 데이터를 가져와 답변하는 경우가 많았다.
LLM을 사용하면서 이 부분을 가장 많이 신경 쓰게 되었는데, NOVA는 다른 ai모델보다 상대적으로 높은 값을 가지는 것을 알 수 있었다.
또한 이미지 benchmarks와 비교해 보아도 이미지 추론과 대리 수행능력에서 NOVA가 가장 좋은 성능을 보여줌을 알 수 있었다.
모델학습 시, 학습되는 텍스트의 문맥이 긴 경우는 잘라서 학습하거나 긴 문장 그대로 학습하게 되는데, 이 경우 많은 데이터 손실 또는 학습의 오류가 종종 발생한다. 하지만 NOVA는 32k ~ 300k까지의 문맥을 학습할 때도, 정확도가 높을 뿐만 아니라 다른 benchmark에 비해 꽤나 높은 성능을 냄을 보여주고 있다.
이 외에도 python 코딩, 금융 데이터에 대한 분석, RAG의 정확도를 봤을 때, 전체 모델 중 가장 성능이 좋게 나오는 Cluade 3.5 sonnet과 비교해도 아쉽지 않은 결과를 보여주었다.
NOVA-Reel의 경우, 동영상에 대한 판단은 비디오의 퀄리티와 지속성을 사람이 확인하여 판단하였다.
퀄리티에서는 전반적인 요소들, 모션, 객체의 사이즈 등을 확인하고 비디오 지속성 부분에서는 배경의 안정성, 객체 사이즈, 모양, 형체 등 잘 유지되는지 확인하였는데, 이들 모두 기술적인 면에서 꽤나 놀라운 결과를 보여주었다고 한다.
모델은 올 초에 오픈 예정이다. cluade나 gpt, gemini, llama등과 비슷한 수준이라면 더 저렴한 NOVA를 사용하는 게 좋아 보이고,
비용에 덜 민감하므로 다양한 파라미터를 사용해 보고, 더 많은 파인튜닝을 해서 최상의 학습을 해볼 예정이다.
나중에 모델의 아키텍처에 관한 내용이 나온다면 제대로 리뷰해 봐야겠다.