[매일 논문 초록 읽기 : 60일차] Synthetic feedback을 사용해 RM을 진행하는 모델인 ALMoST

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 60일차] Synthetic feedback을 사용해 RM을 진행하는 모델인 ALMoST 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 60일차] Synthetic feedback을 사용해 RM을 진행하는 모델인 ALMoST

언유상 2024. 1. 24. 10:06

대규모 언어모델을 인간의 가치에 정렬하는 것은 LLM의 정교하게 조율할 수 있는 방법으로 매우 중요하게 되었다. 하지만, 이것은 상당한 인간의 시연과 피드백 또는 ChatGPT와 같은 독점적인 LLM으로부터의 정제를 요구한다.

이 논문에서, 우리는 많은 양의 인간 주석과 독점적인 LLM에 의존하지 않는 합성 피드백을 사용한 새로운 정렬 학습 프레임워크를 제안한다. 먼저, 우리는 여러가지 프롬프트를 여러가지 크기의 Vanilla LLM에 넣어 나온 결과를 비교해 생성된 합성 피드백으로 Reward Modeling을 수행한다. 그리고, 우리는 RM을 사용하여 고품질의 시연을 모방하여 감독 정책을 훈련하고, 강화학습으로 모델을 최적화한다.

우리의 최종 모델인 Aligned Language Model with Synthetic Training dataset (ALMoST)는 InstructGPT의 결과물이나 인간 주석으로 학습된 최신 오픈소스 모델들보다 정렬 benchmark에서 우수한 성능을 달성하였다. 인간 평가에서, 우리의 모델은 55.0%, 58.5% 시간 동안 Alpaca와 Dolly-v2보다 선호되었다. 또한 분석들은 우리의 프레임워크에서 합성 피드백의 중요성과 효과성을 입증한다.

제목 : Aligning Large Language Models through Synthetic Feedback
https://arxiv.org/abs/2305.13735

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

[매일 논문 초록 읽기 : 61일차] knowledge-intensive task를 해결하기 위한 방안인 RAG (0)	2024.03.24
[매일 논문 초록 읽기 : 59일차] 언어모델이 긴 문맥을 제대로 활용하지 못한다는 내용의 논문 (0)	2024.01.23
[매일 논문 초록 읽기 : 58일차] EToD 분야에 대한 Survey (1)	2024.01.22
[매일 논문 초록 읽기 : 57일차] 다중 사용자 환경에 사용되는 챗봇 개발을 위한 framework인 MUCA (0)	2024.01.18
[매일 논문 초록 읽기 : 56일차] 여러 에이전트들을 동시에 활용하여 할루시네이션을 낮추고 어려운 문제에 대한 해결력을 높인 MetaGPT (1)	2024.01.16

'건전한 학습생활 - 매일 논문 초록 읽기' Related Articles

Comments

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 60일차] Synthetic feedback을 사용해 RM을 진행하는 모델인 ALMoST 본문

[매일 논문 초록 읽기 : 60일차] Synthetic feedback을 사용해 RM을 진행하는 모델인 ALMoST

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

티스토리툴바