대규모 언어모델 (LLM)의 평가는 그들의 성능을 향상시키고, 잠재적인 보안 위협을 약화시키는데 중요하다. 이 논문에서, 우리는 LLM을 평가하기 위한 PromptBench를 소개한다. PromptBench는 연구자들이 용이하게 사용하고 확장할 수 있도록 프롬프트 제작, 프롬프트 엔지니어링, 데이터셋과 모델 로딩, 적대적 프롬프트 공격, 동적 평가 프로토콜, 분석 툴 등 다양한 핵심 요소들로 구성되어 있다. PromptBench는 연구 목적을 위해 개방적, 일반적, 유연한 코드베이스로 설계되었다. 이는 새로운 benchmark를 만들고, downstream 어플리케이션을 배포하며, 새로운 평가 프로토콜을 제작하는 등의 원래 연구를 촉진할 수 있다. 코드는 https://github.com/microsof..