언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 60일차] Synthetic feedback을 사용해 RM을 진행하는 모델인 ALMoST 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 60일차] Synthetic feedback을 사용해 RM을 진행하는 모델인 ALMoST

언유상 2024. 1. 24. 10:06

 대규모 언어모델을 인간의 가치에 정렬하는 것은 LLM의 정교하게 조율할 수 있는 방법으로 매우 중요하게 되었다. 하지만, 이것은 상당한 인간의 시연과 피드백 또는 ChatGPT와 같은 독점적인 LLM으로부터의 정제를 요구한다.


 이 논문에서, 우리는 많은 양의 인간 주석과 독점적인 LLM에 의존하지 않는 합성 피드백을 사용한 새로운 정렬 학습 프레임워크를 제안한다. 먼저, 우리는 여러가지 프롬프트를 여러가지 크기의 Vanilla LLM에 넣어 나온 결과를 비교해 생성된 합성 피드백으로 Reward Modeling을 수행한다. 그리고, 우리는 RM을 사용하여 고품질의 시연을 모방하여 감독 정책을 훈련하고, 강화학습으로 모델을 최적화한다.


 우리의 최종 모델인 Aligned Language Model with Synthetic Training dataset (ALMoST)는 InstructGPT의 결과물이나 인간 주석으로 학습된 최신 오픈소스 모델들보다 정렬 benchmark에서 우수한 성능을 달성하였다. 인간 평가에서, 우리의 모델은 55.0%, 58.5% 시간 동안 Alpaca와 Dolly-v2보다 선호되었다. 또한 분석들은 우리의 프레임워크에서 합성 피드백의 중요성과 효과성을 입증한다.

제목 : Aligning Large Language Models through Synthetic Feedback
https://arxiv.org/abs/2305.13735


Comments