언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 41일차] 과학 논문 분야에서의 RAG 모델인 PaperQA와 이를 평가할 새로운 benchmark인 LitQA 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 41일차] 과학 논문 분야에서의 RAG 모델인 PaperQA와 이를 평가할 새로운 benchmark인 LitQA

언유상 2023. 12. 20. 17:13

 대규모 언어 모델(LLM)은 여러 언어 task들에서 일반적으로 좋은 성능을 보이지만, 할루시네이션과 해석력이 낮다는 문제점이 있다. 이로 인해 ground-truth 없이 모델의 정확도를 평가하기 어렵다. Retrieval-Augmented Generation (RAG) 모델들은 할루시네이션을 줄이고, 대답을 어떻게 생성하였는지를 제공하기 위해 제안되었다. 과학 문헌에 이러한 모델을 적용하는 것은 과학 지식의 대규모, 체계적 처리가 가능해질 수 있을 것이다.

 

 우리는 과학 문헌을 통해 질문에 대답을 해주는 RAG agent인 PaperQA를 제안한다. PaperQA는 full-text 과학 기사들로부터 정보 검색을 수행하며, 출처와 문단의 관련성을 평가한 뒤, RAG를 사용하여 정답을 제공하는 agent이다. 이 agent를 QA 모델로 봤을 때, 우리는 현재 존재하는 LLM들과 LLM agent들이 과학 QA benchmark에서 달성한 성능을 넘어섬을 발견했다. 인간이 과학 문헌에 대한 연구를 수행하는 방법에 모델을 근접시키기 위해 우리는 full-text의 과학 논문에서 정보의 검색과 합성을 요구하는 더 복잡한 benchmark인 LitQA도 소개한다.

 

 최종적으로, 우리는 PaperQA가 LitQA에서 전문가 수준의 인간 연구자와 견줄 수 있음을 보였다.

 

제목 : PaperQA: Retrieval-Augmented Generative Agent for Scientific Research

https://arxiv.org/abs/2312.07559

 

 

Comments