Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- GUI
- CSS
- *Luna
- VOCALOID
- 독학
- 연결리스트
- 학습생활
- OSAM
- 건전한 취미생활
- 과제
- 단계별로풀어보기
- HTML
- 프로젝트
- 텍스트 관련 태그들
- 원소 삭제
- 취미생활
- C언어
- 백준
- 날씨
- 알고리즘
- c++
- PyQT5
- A×B
- Python
- 건전한
- 원소 추가
- A - B
- 구현
- 메일
- 텍스트 관련
Archives
- Today
- Total
언유상씨의 건전한 취미생활
[매일 논문 초록 읽기 : 27일차] hidden state를 사용하여 긴 문장 task에서 발견되는 prefix-tuning의 약점을 보완한 방법론인 prefix-propagation 본문
건전한 학습생활 - 매일 논문 초록 읽기
[매일 논문 초록 읽기 : 27일차] hidden state를 사용하여 긴 문장 task에서 발견되는 prefix-tuning의 약점을 보완한 방법론인 prefix-propagation
언유상 2023. 12. 6. 19:11파라미터 효율적인 조정은 사전학습된 언어모델을 downstream task들에 대해서 적응 시키는데 사용되는 큰 메모리 요구량을 낮춰주는 것을 목표로 한다. 예를 들면, 유명한 방법론인 prefix-tuning의 경우, 모델의 앞부분에 위치한 학습 가능한 token들을 추가하고, 모델의 나머지 파라미터를 freeze 시킨다. 문장의 길이가 짧거나, 중간의 경우에는 몇몇 모델에서 fine-tuning을 적용한 방법과 경쟁력 있는 성능을 달성하지만, 우리는 긴 문장의 경우에는 성능이 떨어지는 것을 보았다.
이러한 간극을 좁히기 위해, 우리는 이전의 hidden state들을 사용하여 prefix들을 조절하는 간단하지만 효율적인 접근법인 prefix-propagation을 제안한다. 우리는 50% 미만의 파라미터를 사용하는 것만으로도 prefix-propagation이 긴 문서를 다루는 task에 대해 prefix-tuning보다 좋은 성능을 내는 것을 보였다.
추가적으로 제안된 아키텍쳐에 대한 조사에서도, 우리는 Calibration에서의 이 방법론의 장점을 확인하였고, kernel attention과 연관하여 추가적인 연구를 진행하였다.
우리가 아는 한, 이 연구는 긴 문장을 다루는 task들에 대해 파라미터 효율적인 학습을 주목한 첫 연구이다.
제목 : Prefix-Propagation: Parameter-Efficient Tuning for Long Sequences
'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글
Comments