일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 알고리즘
- CSS
- 건전한
- Python
- 학습생활
- 텍스트 관련 태그들
- GUI
- 과제
- A×B
- 단계별로풀어보기
- C언어
- HTML
- *Luna
- 구현
- 백준
- c++
- A - B
- 원소 추가
- 텍스트 관련
- 건전한 취미생활
- 연결리스트
- 메일
- 독학
- PyQT5
- 프로젝트
- 날씨
- 취미생활
- 원소 삭제
- OSAM
- VOCALOID
- Today
- Total
언유상씨의 건전한 취미생활
[매일 논문 초록 읽기 : 41일차] 과학 논문 분야에서의 RAG 모델인 PaperQA와 이를 평가할 새로운 benchmark인 LitQA 본문
[매일 논문 초록 읽기 : 41일차] 과학 논문 분야에서의 RAG 모델인 PaperQA와 이를 평가할 새로운 benchmark인 LitQA
언유상 2023. 12. 20. 17:13대규모 언어 모델(LLM)은 여러 언어 task들에서 일반적으로 좋은 성능을 보이지만, 할루시네이션과 해석력이 낮다는 문제점이 있다. 이로 인해 ground-truth 없이 모델의 정확도를 평가하기 어렵다. Retrieval-Augmented Generation (RAG) 모델들은 할루시네이션을 줄이고, 대답을 어떻게 생성하였는지를 제공하기 위해 제안되었다. 과학 문헌에 이러한 모델을 적용하는 것은 과학 지식의 대규모, 체계적 처리가 가능해질 수 있을 것이다.
우리는 과학 문헌을 통해 질문에 대답을 해주는 RAG agent인 PaperQA를 제안한다. PaperQA는 full-text 과학 기사들로부터 정보 검색을 수행하며, 출처와 문단의 관련성을 평가한 뒤, RAG를 사용하여 정답을 제공하는 agent이다. 이 agent를 QA 모델로 봤을 때, 우리는 현재 존재하는 LLM들과 LLM agent들이 과학 QA benchmark에서 달성한 성능을 넘어섬을 발견했다. 인간이 과학 문헌에 대한 연구를 수행하는 방법에 모델을 근접시키기 위해 우리는 full-text의 과학 논문에서 정보의 검색과 합성을 요구하는 더 복잡한 benchmark인 LitQA도 소개한다.
최종적으로, 우리는 PaperQA가 LitQA에서 전문가 수준의 인간 연구자와 견줄 수 있음을 보였다.
제목 : PaperQA: Retrieval-Augmented Generative Agent for Scientific Research
https://arxiv.org/abs/2312.07559
'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글
[매일 논문 초록 읽기 : 43일차] 특정 모델의 지식을 추출하여 다른 모델에게 전달하는 Knowledge Distillation (0) | 2023.12.22 |
---|---|
[매일 논문 초록 읽기 : 42일차] Transformer 기반 LLM의 시간, 메모리 문제를 완화시킨 새로운 아키텍쳐 Zebra (0) | 2023.12.22 |
[매일 논문 초록 읽기 : 40일차] LLM의 query 사용 능력을 조사하는 연구 (0) | 2023.12.19 |
[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench (0) | 2023.12.18 |
[매일 논문 초록 읽기 : 38일차] 2023년 1~3분기 인공지능 분야 현황 보고서 (0) | 2023.12.17 |