언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 44일차] multimodal에 강점을 보이는 Gemini 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 44일차] multimodal에 강점을 보이는 Gemini

언유상 2023. 12. 25. 21:46

 이 보고서는 새로운 multimodal model들의 집합인 Gemini를 소개한다. 이는 이미지, 오디오, 비디오, 텍스트를 이해하는데 뛰어난 능력을 가지고 있다. Gemini는 Ultra, Pro, Nano 사이즈로 구성되어 있으며, 복잡한 추론 task부터 디바이스 상에서 제한된 메모리를 가지고 작동하는 경우까지 여러가지 상황에 적용하는데 용이하게 되어있다.

 

 광범위한 benchmark들에서 진행한 평가에서 가장 좋은 성적을 달성한 Gemini Ultra model은, 32개의 benchmark 중 30개의 benchmark에서 SOTA를 달성함을 보였다. 또한, 이는 잘 연구된 시험 benchmark인 MMLU에서 인간 전문가의 성능을 달성한 첫번째 모델이고 우리가 실험한 20개의 multimodal benchmark들에서 모두 SOTA를 달성하며 성능을 끌어올렸다.

 

 우리는 Gemini model의 cross-modal 추론과 언어 이해 부분에서의 새로운 능력이 광범위한 활용성을 가져올 것이라고 믿고, 우리는 Gemini를 사람들에게 책임감 있게 배포하는 방법에 대해 논의한다.

 

제목 : Gemini: A Family of Highly Capable Multimodal Models

https://arxiv.org/abs/2312.11805

 

 

Comments