[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench

언유상 2023. 12. 18. 16:55

대규모 언어모델 (LLM)의 평가는 그들의 성능을 향상시키고, 잠재적인 보안 위협을 약화시키는데 중요하다. 이 논문에서, 우리는 LLM을 평가하기 위한 PromptBench를 소개한다.

PromptBench는 연구자들이 용이하게 사용하고 확장할 수 있도록 프롬프트 제작, 프롬프트 엔지니어링, 데이터셋과 모델 로딩, 적대적 프롬프트 공격, 동적 평가 프로토콜, 분석 툴 등 다양한 핵심 요소들로 구성되어 있다. PromptBench는 연구 목적을 위해 개방적, 일반적, 유연한 코드베이스로 설계되었다. 이는 새로운 benchmark를 만들고, downstream 어플리케이션을 배포하며, 새로운 평가 프로토콜을 제작하는 등의 원래 연구를 촉진할 수 있다.

코드는 https://github.com/microsoft/promptbench에 공개되어 있고, 계속 지원될 것이다.

제목 : PromptBench: A Unified Library for Evaluation of Large Language Models

https://arxiv.org/abs/2312.07910

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

[매일 논문 초록 읽기 : 41일차] 과학 논문 분야에서의 RAG 모델인 PaperQA와 이를 평가할 새로운 benchmark인 LitQA (2)	2023.12.20
[매일 논문 초록 읽기 : 40일차] LLM의 query 사용 능력을 조사하는 연구 (0)	2023.12.19
[매일 논문 초록 읽기 : 38일차] 2023년 1~3분기 인공지능 분야 현황 보고서 (0)	2023.12.17
[매일 논문 초록 읽기 : 37일차] 학습 데이터의 특성에 대한 의존성을 낮추기 위해 사용하는 RAG (0)	2023.12.17
[매일 논문 초록 읽기 : 36일차] Unlabeled text의 좌우 문맥으로부터 학습을 진행하는 BERT (0)	2023.12.15

'건전한 학습생활 - 매일 논문 초록 읽기' Related Articles

Comments

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench 본문

[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

티스토리툴바