언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 21일차] 기존의 prompt tuning의 문제점들을 보완한 PANDA 접근법 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 21일차] 기존의 prompt tuning의 문제점들을 보완한 PANDA 접근법

언유상 2023. 11. 30. 17:22

PLM이 10억개 이상의 파라미터를 가질 때, 사전학습된 언어모델을 freeze 시키고 추가적인 soft prompt의 약간의 parameter만을 fine-tuning 하는 프롬프트 튜닝은 모든 파라미터를 fine-tuning 하는 것과 비슷한 성능을 보이지만, 작은 크기의 PLM에서는 여전히 잘 적용되지 않는다. 그러므로, 최근 프롬프트 튜닝을 개선하기 위해 비슷한 task로 학습된 prompt를 사용하여 target prompt를 초기화하는 프롬프트 전이 (PoT)가  제안되었다.

 

 하지만, vanilla PoT와 같은 접근법은 이러한 문제들 때문에 대체로 최적의 성능을 달성하지 못한다. 

1. PoT는 source-target 쌍의 유사도에 민감하다. 

2. target task에 대한 source prompt를 사용하여 초기화된 prompt를 직접 fine-tuning 하는 것은 source knowledge에 대해 catastrophic forgetting을 유도한다. 

 

이러한 문제점들의 대안으로, 우리는 프롬프트 전이 능력을 정확하게 예측할 수 있는 새로운 척도와 (1번 고려) 지식 증류 기법을 사용하여 source prompt에서 target prompt로 지식을 전이시키고 catastrophic forgetting을 효과적으로 완화하는 PANDA라는 이름의 새로운 PoT 접근법 (2번 고려)을 제안한다. 게다가 각각의 source-target 쌍에 프롬프트 전이를 적용시키기 위해, 우리는 우리의 척도를 사용하여 PANDA 접근법에서 지식 전이를 제어한다.  

 

21개의 source와 9개의 target dataset로 구성한 189개의 조합들에 대해 5개 사이즈의 PLM을 사용하여 진행한 광범위하고 체계적인 실험은 다음의 3가지를 보였다. 

1. 우리가 제안한 척도는 프롬프트 전이 능력을 잘 예측했다.

2. 모든 task와 모든 모델 사이즈에서, PANDA는 vanilla PoT 접근법 대비 평균 2.3%의 성능 향상을 달성했다. (24.1%로 상승)

3. PANDA 접근법을 사용한 프롬프트 튜닝은 PLM tuning하는 여러가지 방법론들과 비슷하거나 우수한 성능을 달성할 수 있다.

 

코드와 모델은 acceptance 이후에 공개된다.

 

제목 : PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation

https://arxiv.org/abs/2208.10160

 

Comments