일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 취미생활
- 원소 추가
- VOCALOID
- HTML
- 독학
- 텍스트 관련 태그들
- 알고리즘
- 단계별로풀어보기
- Python
- 학습생활
- 과제
- 구현
- 원소 삭제
- C언어
- CSS
- 연결리스트
- A×B
- 건전한 취미생활
- OSAM
- GUI
- 백준
- c++
- 텍스트 관련
- 프로젝트
- *Luna
- 날씨
- 건전한
- PyQT5
- A - B
- 메일
- Today
- Total
언유상씨의 건전한 취미생활
[매일 논문 초록 읽기 : 48일차] 추가 데이터들로 발생할 수 있는 Knowledge Forgetting을 방지하는 LoRAMoE 본문
[매일 논문 초록 읽기 : 48일차] 추가 데이터들로 발생할 수 있는 Knowledge Forgetting을 방지하는 LoRAMoE
언유상 2023. 12. 28. 00:02Supervised fine-tuning (SFT)는 LLM을 사람의 지시문과 LLM을 정렬시키고, downstream task에 대해 LLM의 능력을 향상시키는데 중요한 단계이다. 광범위한 downstream task들에 대해 모델을 정렬시키거나, 특정 task에 대한 성능을 향상시키기 위해 fine-tuning data를 증가시키는 방법이 해결책으로 부상하였다. 하지만, 우리는 지시 데이터를 크게 늘리는 것은 LLM이 이전에 저장하고 있었던 정보들을 잃을 수 있다는 것을 발견하였다. 즉, 지식을 잊는 것이다.
이 논문에서, 우리는 이러한 문제를 해결하기 위해 LoRAMoE를 소개한다. LoRAMoE는 MoE의 plugin 버전이다. plugin의 형태는 학습을 진행하는 과정에서 backbone 모델을 freeze 시킴으로써 지식의 무결성을 보장한다. 그리고 우리는 task에 활용할 수 있도록 expert들의 일부를 조정하고, 다른 expert 모델에 저장된 지식을 활용할 수 있도록 균형을 맞추는 사용법을 제안한다.
실험적인 결과는 LoRAMoE는 추론 간 data type에 기반하여 합리적으로 expert들을 조정할 수 있었음을 보였고, 심지어 지시 데이터를 급격하게 많이 추가 했음에도 knowledge forgetting을 막아냈다. 게다가, LoRAMoE는 downstream task에 대해 추가적인 이득들을 제공하였고, multi-task learning 분야에서 우리의 접근법이 가지고 있는 잠재력을 보였다.
제목 : LoRAMoE: REVOLUTIONIZING MIXTURE OF EX- PERTS FOR MAINTAINING WORLD KNOWLEDGE IN LANGUAGE MODEL ALIGNMENT
https://arxiv.org/pdf/2312.09979.pdf