언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench

언유상 2023. 12. 18. 16:55

 대규모 언어모델 (LLM)의 평가는 그들의 성능을 향상시키고, 잠재적인 보안 위협을 약화시키는데 중요하다. 이 논문에서, 우리는 LLM을 평가하기 위한 PromptBench를 소개한다.

 

 PromptBench는 연구자들이 용이하게 사용하고 확장할 수 있도록 프롬프트 제작, 프롬프트 엔지니어링, 데이터셋과 모델 로딩, 적대적 프롬프트 공격, 동적 평가 프로토콜, 분석 툴 등 다양한 핵심 요소들로 구성되어 있다. PromptBench는 연구 목적을 위해 개방적, 일반적, 유연한 코드베이스로 설계되었다. 이는 새로운 benchmark를 만들고, downstream 어플리케이션을 배포하며, 새로운 평가 프로토콜을 제작하는 등의 원래 연구를 촉진할 수 있다.

 

 코드는 https://github.com/microsoft/promptbench에 공개되어 있고, 계속 지원될 것이다.

 

제목 : PromptBench: A Unified Library for Evaluation of Large Language Models

https://arxiv.org/abs/2312.07910

Comments