[매일 논문 초록 읽기 : 45일차] weak supervisor를 사용하여 큰 모델의 성능을 이끌어내는 weak-to-strong generalization

인공지능/매일 논문 초록 읽기

[매일 논문 초록 읽기 : 45일차] weak supervisor를 사용하여 큰 모델의 성능을 이끌어내는 weak-to-strong generalization

언유상 2023. 12. 25. 22:38

인간 피드백 기반 강화학습 (RLHF)와 같이 자주 사용되는 정렬 기술은 모델의 행동을 지도하는데 인간의 능력에 의존한다.

예를 들면, 모델이 안전한 결과물을 생성하는지, 모델이 지시문을 잘 다라오는지를 평가하는 것이다.

하지만, 초인간모델들은 인간이 평가를 진행하기 어려운 복잡한 방식으로 행동할 것이므로 사람들은 오직 초인간 모델들에 대해 weakly supervise만 가능할 것이다. 우리는 이러한 문제를 연구하였다. : 약한 감독 모델로 지도하여, 강력한 모델의 모든 능력을 이끌어 낼 수 있는가?

우리는 GPT-4 시리즈와 같은 여러가지 사전학습 언어모델을 NLP, 체스, 보상 모델링 task에 대해 테스트 했다. 그 결과 강력한 사전학습 모델들을 weak model이 생성한 label들에 대해 finetuning을 진행하면, 해당 모델들은 그들의 weak supervisor들보다 지속적으로 좋은 성능을 달성함을 발견하였다. 우리는 이러한 현상을 weak-to-strong generalization이라고 부른다.

하지만, 우리는 여전히 단순한 fine-tuning만으로 strong model의 모든 능력을 복구할 수 없다는 것을 발견하였고, 이는 RLHF와 같은 기술들이 추가 작업 없이 초인간 모델들에 잘 적용되지 않을 수 있음을 보인다. 우리는 weak-to-strong generalization을 상당히 향상시키는 간단한 방법론을 발견하였다. 예를 들면 GPT-4를 GPT-2 level의 supervisor와 보조적인 신뢰도 loss로 fine-tuning을 진행할 때, NLP task들에 대해 GPT-3.5 level의 성능에 가깝게 성능을 복구할 수 있다. 우리의 결과는 초인간 모델들을 정렬하는 도전에 대해 실제적인 진전을 이루는 것이 가능함을 보인다.

제목 : WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION

https://arxiv.org/abs/2312.09390

'인공지능 > 매일 논문 초록 읽기' 카테고리의 다른 글

[매일 논문 초록 읽기 : 47일차] Code generation에 multi-agent를 결합하여 코드를 생성하고 검증하는 AgentCoder (1)	2023.12.26
[매일 논문 초록 읽기 : 46일차] Text-to-SQL에 multi-agent를 적용시킨 MAC-SQL (0)	2023.12.26
[매일 논문 초록 읽기 : 44일차] multimodal에 강점을 보이는 Gemini (0)	2023.12.25
[매일 논문 초록 읽기 : 43일차] 특정 모델의 지식을 추출하여 다른 모델에게 전달하는 Knowledge Distillation (0)	2023.12.22
[매일 논문 초록 읽기 : 42일차] Transformer 기반 LLM의 시간, 메모리 문제를 완화시킨 새로운 아키텍쳐 Zebra (0)	2023.12.22

현재글[매일 논문 초록 읽기 : 45일차] weak supervisor를 사용하여 큰 모델의 성능을 이끌어내는 weak-to-strong generalization

언유상씨의 건전한 취미생활

간단합니다. 건전합니다. 제맘입니다.

알고리즘, 주식, Python, 재태크, C언어, 독학, VOCALOID, 취미생활, 인공지능, 사회초년생, 건전한, 소프트웨어융합대학원, 백준, 건전한 취미생활, c++, *Luna, 학습생활, 국민대학교, 특수대학원, 구현,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

언유상씨의 건전한 취미생활