언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 27일차] hidden state를 사용하여 긴 문장 task에서 발견되는 prefix-tuning의 약점을 보완한 방법론인 prefix-propagation 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 27일차] hidden state를 사용하여 긴 문장 task에서 발견되는 prefix-tuning의 약점을 보완한 방법론인 prefix-propagation

언유상 2023. 12. 6. 19:11

파라미터 효율적인 조정은 사전학습된 언어모델을 downstream task들에 대해서 적응 시키는데 사용되는 큰 메모리 요구량을 낮춰주는 것을 목표로 한다. 예를 들면, 유명한 방법론인 prefix-tuning의 경우, 모델의 앞부분에 위치한 학습 가능한 token들을 추가하고, 모델의 나머지 파라미터를 freeze 시킨다. 문장의 길이가 짧거나, 중간의 경우에는 몇몇 모델에서 fine-tuning을 적용한 방법과 경쟁력 있는 성능을 달성하지만, 우리는 긴 문장의 경우에는 성능이 떨어지는 것을 보았다. 

 

이러한 간극을 좁히기 위해, 우리는 이전의 hidden state들을 사용하여 prefix들을 조절하는 간단하지만 효율적인 접근법인 prefix-propagation을 제안한다. 우리는 50% 미만의 파라미터를 사용하는 것만으로도 prefix-propagation이 긴 문서를 다루는 task에 대해 prefix-tuning보다 좋은 성능을 내는 것을 보였다. 

 

추가적으로 제안된 아키텍쳐에 대한 조사에서도, 우리는 Calibration에서의 이 방법론의 장점을 확인하였고, kernel attention과 연관하여 추가적인 연구를 진행하였다.

 

우리가 아는 한, 이 연구는 긴 문장을 다루는 task들에 대해 파라미터 효율적인 학습을 주목한 첫 연구이다.

 

제목 : Prefix-Propagation: Parameter-Efficient Tuning for Long Sequences

https://aclanthology.org/2023.acl-short.120/

Comments