[매일 논문 초록 읽기 : 5일차] 언어모델을 사람의 의도와 맞추는 방법
언어모델을 크게 만드는 것은 그들이 사용자의 의도를 더 잘 따르게 한다고 할 수 없다. 예를 들면, LLM은 사용자에게 신용할수 없거나, 독성이 있거나, 도움이 되지 않는 결과물을 생성할 수 있다. 다르게 말하면, 이런 모델들은 그들의 사용자에게 맞지 않는다는 것이다. 이 논문에서, 우리는 human feedback을 포함한 파인튜닝을 통해 광범위한 task에서 사용자의 의도를 언어모델에 맞추는 방법을 보여준다. 라벨러가 작성한 프롬프트들과 OpenAI API를 통해 제출된 프롬프트들로 시작하며, 원하는 모델의 행동에 대한 라벨러 데모 데이터 셋을 수집하고,이를 사용하여 GPT-3를 지도학습으로 파인튜닝 하였다. 우리는 지도학습을 통해 파인튜닝한 모델을 human feedback으로 강화학습하기 위해 모델의 결과물들에 대한 순위 정보를 수집하였다. 우리는 최종 모델을 InstructGPT라고 부른다. 우리의 프롬프트 분포에 대한 인간 평가에서, 1.3B 파라미터를 가진 InstructGPT의 결과물은 100배 적은 파라미터를 사용했음에도 불구하고 175B의 GPT-3 결과물보다 선호되었다. 게다가, InstructGPT 모델은 공공의 자연어처리 데이터셋들에 대한 성능 하락을 최소화하며, 신뢰성이 증가하였고, 결과물의 독성도가 낮아지는 것을 보였다. InstructGPT는 여전히 간단한 실수들을 만들지만, 우리의 결과는 human feedback을 포함한 파인튜닝이 언어 모델을 사람의 의도와 맞추는 유망한 방법임을 보여주었다.
제목 : InstructGPT : Training language models to follow instructions with human feedback