[매일 논문 초록 읽기 : 41일차] 과학 논문 분야에서의 RAG 모델인 PaperQA와 이를 평가할 새로운 benchmark인 LitQA

인공지능/매일 논문 초록 읽기

[매일 논문 초록 읽기 : 41일차] 과학 논문 분야에서의 RAG 모델인 PaperQA와 이를 평가할 새로운 benchmark인 LitQA

언유상 2023. 12. 20. 17:13

대규모 언어 모델(LLM)은 여러 언어 task들에서 일반적으로 좋은 성능을 보이지만, 할루시네이션과 해석력이 낮다는 문제점이 있다. 이로 인해 ground-truth 없이 모델의 정확도를 평가하기 어렵다. Retrieval-Augmented Generation (RAG) 모델들은 할루시네이션을 줄이고, 대답을 어떻게 생성하였는지를 제공하기 위해 제안되었다. 과학 문헌에 이러한 모델을 적용하는 것은 과학 지식의 대규모, 체계적 처리가 가능해질 수 있을 것이다.

우리는 과학 문헌을 통해 질문에 대답을 해주는 RAG agent인 PaperQA를 제안한다. PaperQA는 full-text 과학 기사들로부터 정보 검색을 수행하며, 출처와 문단의 관련성을 평가한 뒤, RAG를 사용하여 정답을 제공하는 agent이다. 이 agent를 QA 모델로 봤을 때, 우리는 현재 존재하는 LLM들과 LLM agent들이 과학 QA benchmark에서 달성한 성능을 넘어섬을 발견했다. 인간이 과학 문헌에 대한 연구를 수행하는 방법에 모델을 근접시키기 위해 우리는 full-text의 과학 논문에서 정보의 검색과 합성을 요구하는 더 복잡한 benchmark인 LitQA도 소개한다.

최종적으로, 우리는 PaperQA가 LitQA에서 전문가 수준의 인간 연구자와 견줄 수 있음을 보였다.

제목 : PaperQA: Retrieval-Augmented Generative Agent for Scientific Research

https://arxiv.org/abs/2312.07559

'인공지능 > 매일 논문 초록 읽기' 카테고리의 다른 글

[매일 논문 초록 읽기 : 43일차] 특정 모델의 지식을 추출하여 다른 모델에게 전달하는 Knowledge Distillation (0)	2023.12.22
[매일 논문 초록 읽기 : 42일차] Transformer 기반 LLM의 시간, 메모리 문제를 완화시킨 새로운 아키텍쳐 Zebra (0)	2023.12.22
[매일 논문 초록 읽기 : 40일차] LLM의 query 사용 능력을 조사하는 연구 (0)	2023.12.19
[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench (0)	2023.12.18
[매일 논문 초록 읽기 : 38일차] 2023년 1~3분기 인공지능 분야 현황 보고서 (0)	2023.12.17

현재글[매일 논문 초록 읽기 : 41일차] 과학 논문 분야에서의 RAG 모델인 PaperQA와 이를 평가할 새로운 benchmark인 LitQA

언유상씨의 건전한 취미생활 간단합니다. 건전합니다. 제맘입니다.

언유상씨의 건전한 취미생활

간단합니다. 건전합니다. 제맘입니다.

인공지능, 소프트웨어융합대학원, 백준, 사회초년생, 독학, 학습생활, 취미생활, 건전한, *Luna, 주식, Python, C언어, c++, VOCALOID, 국민대학교, 건전한 취미생활, 특수대학원, 재태크, 알고리즘, 구현,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

언유상씨의 건전한 취미생활