Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 연결리스트
- C언어
- 건전한 취미생활
- 건전한
- CSS
- Python
- 텍스트 관련
- VOCALOID
- 알고리즘
- 텍스트 관련 태그들
- A×B
- 원소 추가
- c++
- 독학
- 날씨
- 과제
- 단계별로풀어보기
- 백준
- HTML
- 프로젝트
- 구현
- A - B
- 메일
- *Luna
- 취미생활
- PyQT5
- 학습생활
- GUI
- OSAM
- 원소 삭제
Archives
- Today
- Total
언유상씨의 건전한 취미생활
[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation 본문
건전한 학습생활 - 매일 논문 초록 읽기
[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation
언유상 2023. 11. 23. 13:16지식 증류는 모델 압축과 속도 증가에 효과적임이 증명되었다. 이는 큰 neural network의 예측을 사용하여 작은 neural network에게 지식을 전이시킨다. 하지만 이러한 방법은 파라미터와 같이 큰 neural network의 내부 지식을 무시한다. 사전 연구와 최근의 사전 교육 성공은 파라미터를 전이 시키는 것이 지식 증류에 더 효과적임을 주장한다. 이 논문에서 우리는 파라미터 생성기를 통해 큰 neural network의 파라미터의 지식들을 작은 neural network로 전이하는 Weight Distillaion을 소개한다. 기계번역 task인 WMT16 En-Ro, NIST12 Zh-En, WMT14 En-De 에서, 우리의 실험은 weight distillation으로 작은 neural network를 학습할 경우 큰 neural network와 경쟁할만한 BLEU성능을 내고, 큰 neural network 대비 1.88~2.94배 빠름을 보였다. 작은 network의 크기를 고정할 때, weight distillation은 BLEU에서 지식 증류보다 0.51~1.82 점이 더 높음을 보였다.
제목 : Weight Distillation: Transferring the Knowledge in Neural Network Parameters
'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글
Comments