인공지능/매일 논문 초록 읽기

[매일 논문 초록 읽기 : 3일차] 최근의 언어모델들은 모델의 크기에 비해 데이터가 작아 학습량이 부족하다

언유상 2023. 11. 4. 12:32

우리는 주어진 컴퓨팅 예산 아래에서 transformer 언어 모델을 학습하기 위한 최적의 모델 사이즈와 토큰의 개수를 조사했다.

우리는 데이터의 개수를 유지시킨 상태로 모델의 크기에만 집중하는 흐름속에서 최근의 LLM들이 매우 undertrained 하다는 것을 발견했다.

70M ~ 16B의 크기를 가지는 모델들을 5B ~ 500B token으로 학습하여 총 400개의 언어 모델들을 학습하면서, 우리는 학습을 위한 최적점을 발견하였다. 

모델의 크기와 학습 token의 수는 동등하게 증가해야 한다 : 모델의 크기가 2배가 되면 토큰의 개수도 2배가 되어야 한다.

우리는 70B의 파라미터를 가지는 Gopher와 같은 컴퓨팅 예산을 가지지만, 데이터의 개수가 4배 이상인 모델인 Chinchilla를 최적화된 모델로 예측하였고, Chinchilla 를사용하여 가설을 실험하였다.

Chinchilla는 넓은 범위의 downstream evaluation task에서 Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), and Megatron-Turing NLG (530B)의 성능을 크게 뛰어넘었습니다.

이것은 Chinchilla가 파인 튜닝과 추론에 적은 양의 연산을 필요로 하므로, 다운스트림 사용에 더 용이하다는 것을 의미한다.

특히, Chinchilla MMLU 벤치마크에서 SOTA 67.5% 성능을 달성하였고, 이는 Gopher 보다 7% 향상된 수치이다.

 

제목 : Training Compute-Optimal Large Language Models

https://arxiv.org/abs/2203.15556