언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation

언유상 2023. 11. 23. 13:16

지식 증류는 모델 압축과 속도 증가에 효과적임이 증명되었다. 이는 neural network 예측을 사용하여 작은 neural network에게 지식을 전이시킨다. 하지만 이러한 방법은 파라미터와 같이 neural network 내부 지식을 무시한다. 사전 연구와 최근의 사전 교육 성공은 파라미터를 전이 시키는 것이 지식 증류에 효과적임을 주장한다. 논문에서 우리는 파라미터 생성기를 통해 neural network 파라미터의 지식들을 작은 neural network 전이하는 Weight Distillaion 소개한다. 기계번역 task WMT16 En-Ro, NIST12 Zh-En, WMT14 En-De 에서, 우리의 실험은 weight distillation으로 작은 neural network 학습할 경우 neural network 경쟁할만한 BLEU성능을 내고, neural network 대비 1.88~2.94 빠름을 보였다. 작은 network 크기를 고정할 , weight distillation BLEU에서 지식 증류보다 0.51~1.82 점이 높음을 보였다.

 

제목 : Weight Distillation: Transferring the Knowledge in Neural Network Parameters

https://aclanthology.org/2021.acl-long.162/

Comments