언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 45일차] weak supervisor를 사용하여 큰 모델의 성능을 이끌어내는 weak-to-strong generalization 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 45일차] weak supervisor를 사용하여 큰 모델의 성능을 이끌어내는 weak-to-strong generalization

언유상 2023. 12. 25. 22:38

 인간 피드백 기반 강화학습 (RLHF)와 같이 자주 사용되는 정렬 기술은 모델의 행동을 지도하는데 인간의 능력에 의존한다.

예를 들면, 모델이 안전한 결과물을 생성하는지, 모델이 지시문을 잘 다라오는지를 평가하는 것이다.

 

 하지만, 초인간모델들은 인간이 평가를 진행하기 어려운 복잡한 방식으로 행동할 것이므로 사람들은 오직 초인간 모델들에 대해 weakly supervise만 가능할 것이다. 우리는 이러한 문제를 연구하였다. : 약한 감독 모델로 지도하여, 강력한 모델의 모든 능력을 이끌어 낼 수 있는가?

 

 우리는 GPT-4 시리즈와 같은 여러가지 사전학습 언어모델을 NLP, 체스, 보상 모델링 task에 대해 테스트 했다. 그 결과 강력한 사전학습 모델들을 weak model이 생성한 label들에 대해 finetuning을 진행하면, 해당 모델들은 그들의 weak supervisor들보다 지속적으로 좋은 성능을 달성함을 발견하였다. 우리는 이러한 현상을 weak-to-strong generalization이라고 부른다.

 

 하지만, 우리는 여전히 단순한 fine-tuning만으로 strong model의 모든 능력을 복구할 수 없다는 것을 발견하였고, 이는 RLHF와 같은 기술들이 추가 작업 없이 초인간 모델들에 잘 적용되지 않을 수 있음을 보인다. 우리는 weak-to-strong generalization을 상당히 향상시키는 간단한 방법론을 발견하였다. 예를 들면 GPT-4를 GPT-2 level의 supervisor와 보조적인 신뢰도 loss로 fine-tuning을 진행할 때, NLP task들에 대해 GPT-3.5 level의 성능에 가깝게 성능을 복구할 수 있다. 우리의 결과는 초인간 모델들을 정렬하는 도전에 대해 실제적인 진전을 이루는 것이 가능함을 보인다.

 

 

제목 : WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION

https://arxiv.org/abs/2312.09390

Comments