Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Python
- 백준
- 취미생활
- 독학
- 날씨
- 원소 삭제
- 텍스트 관련
- VOCALOID
- 텍스트 관련 태그들
- 학습생활
- 건전한
- 과제
- 원소 추가
- A×B
- 알고리즘
- PyQT5
- 프로젝트
- 건전한 취미생활
- C언어
- 구현
- GUI
- CSS
- 연결리스트
- *Luna
- OSAM
- 단계별로풀어보기
- c++
- HTML
- 메일
- A - B
Archives
- Today
- Total
언유상씨의 건전한 취미생활
[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench 본문
건전한 학습생활 - 매일 논문 초록 읽기
[매일 논문 초록 읽기 : 39일차] LLM의 평가를 용이하게 하는 새로운 benchmark인 PromptBench
언유상 2023. 12. 18. 16:55대규모 언어모델 (LLM)의 평가는 그들의 성능을 향상시키고, 잠재적인 보안 위협을 약화시키는데 중요하다. 이 논문에서, 우리는 LLM을 평가하기 위한 PromptBench를 소개한다.
PromptBench는 연구자들이 용이하게 사용하고 확장할 수 있도록 프롬프트 제작, 프롬프트 엔지니어링, 데이터셋과 모델 로딩, 적대적 프롬프트 공격, 동적 평가 프로토콜, 분석 툴 등 다양한 핵심 요소들로 구성되어 있다. PromptBench는 연구 목적을 위해 개방적, 일반적, 유연한 코드베이스로 설계되었다. 이는 새로운 benchmark를 만들고, downstream 어플리케이션을 배포하며, 새로운 평가 프로토콜을 제작하는 등의 원래 연구를 촉진할 수 있다.
코드는 https://github.com/microsoft/promptbench에 공개되어 있고, 계속 지원될 것이다.
제목 : PromptBench: A Unified Library for Evaluation of Large Language Models
'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글
[매일 논문 초록 읽기 : 41일차] 과학 논문 분야에서의 RAG 모델인 PaperQA와 이를 평가할 새로운 benchmark인 LitQA (2) | 2023.12.20 |
---|---|
[매일 논문 초록 읽기 : 40일차] LLM의 query 사용 능력을 조사하는 연구 (0) | 2023.12.19 |
[매일 논문 초록 읽기 : 38일차] 2023년 1~3분기 인공지능 분야 현황 보고서 (0) | 2023.12.17 |
[매일 논문 초록 읽기 : 37일차] 학습 데이터의 특성에 대한 의존성을 낮추기 위해 사용하는 RAG (0) | 2023.12.17 |
[매일 논문 초록 읽기 : 36일차] Unlabeled text의 좌우 문맥으로부터 학습을 진행하는 BERT (0) | 2023.12.15 |
Comments