[매일 논문 초록 읽기 : 12일차] 각 layer별로 prefix 를 조정하는 APT

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 12일차] 각 layer별로 prefix 를 조정하는 APT 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 12일차] 각 layer별로 prefix 를 조정하는 APT

언유상 2023. 11. 21. 08:43

사전학습된 언어모델의 모든 파라미터를 사용하여 다양한 downstream task에 fine-tuning 하는 것은 불가능할 정도로 비싸다. 따라서, frozen된 사전학습 언어모델을 사용하여 몇개의 파라미터만 최적화 시키는 파라미터 효율적인 fine-tuning은 주목을 받고 있다. 이 연구에서 우리는 Transformer layer들에 삽입된 continuous prefix vector를 최적화하는 prefix tuning에 집중한다. 학습된 구문과 의미 표현들이 레이어마다 많이 달라진다는 관찰을 통해, 우리는 adaptive prefix가 하나의 레이어보다 각 레이어에 더 맞춤화 되어 있어 효율적이고 효과적으로 fine-tuning을 진행할 수 있다고 주장한다. 그러므로, 우리는 게이트 메커니즘을 통해 세분화된 token과 거친 레이어에서 prefix를 조정하는 Adaptive Prefix Tuning (APT)를 제안한다. SuperGLUE와 NER 데이터셋에 대한 실험은 APT의 효율성을 보여준다. 게다가, 게이트를 사용하여 variable prefix의 효율성과 효과성을 검증한다.

제목 : Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model Fine-tuning

https://arxiv.org/abs/2305.15212

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation (0)	2023.11.23
[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론 (1)	2023.11.22
[매일 논문 초록 읽기 : 11일차] Transformer에 knowledge distillation을 접합시킨 TinyBERT (1)	2023.11.20
[매일 논문 초록 읽기 : 10일차] 오픈소스가 아닌 챗봇 모델의 대항마로 나온 Llama 2 (0)	2023.11.10
[매일 논문 초록 읽기 : 9일차] LLM이 학습한 사회적 편향의 리스크를 낮출 수 있는 데이터 셋 (0)	2023.11.09

'건전한 학습생활 - 매일 논문 초록 읽기' Related Articles

Comments

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 12일차] 각 layer별로 prefix 를 조정하는 APT 본문

[매일 논문 초록 읽기 : 12일차] 각 layer별로 prefix 를 조정하는 APT

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

티스토리툴바