인공지능/매일 논문 초록 읽기

[매일 논문 초록 읽기 : 4일차] 도메인 adaptation 사용시 파라미터의 개수를 줄이는 효율적인 방법 (랭크 분해 행렬)

언유상 2023. 11. 4. 13:22

자연어처리의 중요한 패러다임은 일반적인 도메인 데이터로 대규모 사전학습 하는것과 특정한 task나 도메인에 맞추어 adaptation하는 것으로 구성되어 있다. 우리가 큰 모델을 사전학습 할수록 모델의 모든 파라미터를 학습 시키는 풀 파인튜닝을 진행하는 것이 현실적이지 않게 된다. 175B의 GPT-3를 예시로 들면, 각각이 175B 파라미터를 가지고 있는 full-tuned 모델의 독립적인 인스턴스를 배포하는 것은 엄청난 비용이 든다.

우리는 Low-Rank Adaptation, LoRA를 제안한다.

LoRA 사전학습 모델의 가중치를 freeze시키고, 학습 가능한 분할 행렬을 transformer 아키텍처의 각 레이어에 추가하여 downstram task들을 위한 학습 가능한 파라미터의 개수를 엄청나게 감소시킨다.

Adam으로 파인튜닝된 GPT-3 175B와 비교하면, LoRA는 학습 가능한 파라미터를 10,000배 낮추고, GPU 메모리 요구량을 3배 낮출 수 있다.

LoRA는 RoBERTa, DeBERTa, GPT-2, GPT-3에 비해 적은 양의 학습 가능한 파라미터를 사용했지만, 더 높은 학습 처리량을 보이고, adapter와는 다르게 추론에 걸리는 시간이 늘어나지도 않으며 비슷하거나 높은 성능을 달성하였다. 

우리는 또한 언어 모델 adaptation에서의 계수 부족 현상에 대한 조사를 제공하는데, 이는 LoRA의 효능을 보여준다.

우리는 Pytorch 모델과 함께 사용할 있는 패키지를 배포하며, RoBERTa, DeBERTa, GPT-2 대한 체크포인트를 https://github.com/microsoft/LoRA 에서 배포한다.

 

제목 : LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

https://arxiv.org/abs/2106.09685