[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation

언유상 2023. 11. 23. 13:16

지식 증류는 모델 압축과 속도 증가에 효과적임이 증명되었다. 이는 큰 neural network의 예측을 사용하여 작은 neural network에게 지식을 전이시킨다. 하지만 이러한 방법은 파라미터와 같이 큰 neural network의 내부 지식을 무시한다. 사전 연구와 최근의 사전 교육 성공은 파라미터를 전이 시키는 것이 지식 증류에 더 효과적임을 주장한다. 이 논문에서 우리는 파라미터 생성기를 통해 큰 neural network의 파라미터의 지식들을 작은 neural network로 전이하는 Weight Distillaion을 소개한다. 기계번역 task인 WMT16 En-Ro, NIST12 Zh-En, WMT14 En-De 에서, 우리의 실험은 weight distillation으로 작은 neural network를 학습할 경우 큰 neural network와 경쟁할만한 BLEU성능을 내고, 큰 neural network 대비 1.88~2.94배 빠름을 보였다. 작은 network의 크기를 고정할 때, weight distillation은 BLEU에서 지식 증류보다 0.51~1.82 점이 더 높음을 보였다.

제목 : Weight Distillation: Transferring the Knowledge in Neural Network Parameters

https://aclanthology.org/2021.acl-long.162/

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

[매일 논문 초록 읽기 : 16일차] teacher의 성능이 student의 성능과 비례하지 않는다는 문제점을 해결하기 위한 방법론인 LGTM (2)	2023.11.25
[매일 논문 초록 읽기 : 15일차] 대규모 신경망의 파라미터 속 내부 표현을 간단하게 만들어 student 모델에게 증류를 진행하는 방법론 (0)	2023.11.24
[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론 (1)	2023.11.22
[매일 논문 초록 읽기 : 12일차] 각 layer별로 prefix 를 조정하는 APT (2)	2023.11.21
[매일 논문 초록 읽기 : 11일차] Transformer에 knowledge distillation을 접합시킨 TinyBERT (1)	2023.11.20

'건전한 학습생활 - 매일 논문 초록 읽기' Related Articles

Comments

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation 본문

[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

티스토리툴바