언유상씨의 건전한 취미생활
[매일 논문 초록 읽기 : 61일차] knowledge-intensive task를 해결하기 위한 방안인 RAG 본문
[매일 논문 초록 읽기 : 61일차] knowledge-intensive task를 해결하기 위한 방안인 RAG
언유상 2024. 3. 24. 17:50 대규모 사전 훈련된 언어 모델은 매개변수에 사실적 지식을 저장할 수 있으며, downstream NLP task들에 대해 fine-tuned 할 때 SOTA를 달성함을 보였다. 그러나, 지식에 접근하고 정확하게 조작하는 능력은 여전히 제한적이며, 따라서 지식 집약적인 작업에서는 task-specific한 아키텍처에 비해 성능이 뒤처진다. 또한, 결정에 대한 출처를 제공하고 지식을 업데이트하는 것은 해결되지 않은 연구 문제이다. non-parametric memory에 대한 차별화 가능한 접근 메커니즘을 갖춘 사전 훈련된 모델은 지금까지 추출적 downstream task들에 대해서만 조사되었다.
우리는 검색-증강 생성(RAG)을 위한 일반적인 목적의 미세 조정 레시피를 탐구한다. RAG는 언어 생성을 위해 사전 훈련된 parametric, non-parametric memory를 결합한 모델이다. 우리는 parametric memory가 사전 훈련된 seq2seq 모델이고, non-parametric memory가 사전 훈련된 신경 검색기로 접근한 위키피디아의 밀집 벡터 인덱스인 RAG 모델을 소개한다.
우리는 두 가지 RAG 구성을 비교한다. 하나는 전체 생성 시퀀스에 걸쳐 동일한 검색된 구절에 조건을 부여하고, 다른 하나는 토큰마다 다른 구절을 사용할 수 있다. 우리는 우리의 모델을 다양한 지식 집약적인 NLP task들에 fine-tuning 하고 평가하며, 세 개의 오픈 도메인 QA 작업에서 최신의 성과를 설정하여 parametric seq2seq 모델과 task-specific한 검색-추출 아키텍처를 능가한다. 언어 생성 task의 경우, 우리는 RAG 모델이 SOTA를 달성한 parametric-only seq2seq baseline보다 더 구체적이고 다양하며 사실적인 언어를 생성한다는 것을 발견했다.
제목 : Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
https://arxiv.org/abs/2005.11401
'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글
[매일 논문 초록 읽기 : 60일차] Synthetic feedback을 사용해 RM을 진행하는 모델인 ALMoST (0) | 2024.01.24 |
---|---|
[매일 논문 초록 읽기 : 59일차] 언어모델이 긴 문맥을 제대로 활용하지 못한다는 내용의 논문 (0) | 2024.01.23 |
[매일 논문 초록 읽기 : 58일차] EToD 분야에 대한 Survey (1) | 2024.01.22 |
[매일 논문 초록 읽기 : 57일차] 다중 사용자 환경에 사용되는 챗봇 개발을 위한 framework인 MUCA (0) | 2024.01.18 |
[매일 논문 초록 읽기 : 56일차] 여러 에이전트들을 동시에 활용하여 할루시네이션을 낮추고 어려운 문제에 대한 해결력을 높인 MetaGPT (1) | 2024.01.16 |