Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 텍스트 관련
- 원소 삭제
- VOCALOID
- 취미생활
- 날씨
- 구현
- 텍스트 관련 태그들
- 건전한 취미생활
- Python
- HTML
- 학습생활
- A×B
- CSS
- 독학
- GUI
- c++
- A - B
- 과제
- 건전한
- *Luna
- C언어
- PyQT5
- 원소 추가
- 단계별로풀어보기
- 알고리즘
- OSAM
- 프로젝트
- 연결리스트
- 백준
- 메일
Archives
- Today
- Total
언유상씨의 건전한 취미생활
[매일 논문 초록 읽기 : 49일차] 모델의 soft target probability를 사용하여 자기 자신의 학습을 진행하는 Self-Knowledge Distillation 본문
건전한 학습생활 - 매일 논문 초록 읽기
[매일 논문 초록 읽기 : 49일차] 모델의 soft target probability를 사용하여 자기 자신의 학습을 진행하는 Self-Knowledge Distillation
언유상 2023. 12. 28. 00:45딥러닝이 NLP의 핵심이 됨에 따라, 많은 딥러닝 모델들은 다양한 NLP task에서 눈에 띄는 성능을 달성하였고, 몇몇 모델은 인간을 뛰어넘는 성능을 달성하였다. 이러한 높은 성능은 딥러닝 모델의 효율적인 지식 표현으로 달성한 것이라고 설명할 수 있다. 많은 방법론들이 더 효율적인 표현을 학습시키기 위해 제안되었고, 사전학습된 심층 신경망으로부터의 지식증류는 우리가 다른 신경망을 학습시킬 때 soft target으로부터 더 많은 정보를 사용할 수 있다는 것을 제안한다.
이 논문에서, 우리는 훈련 모델 자체의 soft target 확률에 기반한 새로운 지식 증류 방법론인 Self-Knowledge Distillation을 제안한다. 여기서 다중 모드 정보는 softmax layer 바로 아래애 있는 word embedding 공간에서 증류된다. 시간 복잡도 때문에, 우리의 방법론은 soft target의 확률값을 대략적으로 계산한다. 실험을 통해, 우리가 제안한 방법론을 2개의 기본적인 NLP task인 언어 모델과 신경망 통역에 적용하였다. 실험의 결과는 우리의 방법론이 모델의 성능을 향상시킴을 보였다.
제목 :Self-Knowledge Distillation in Natural Language Processing
'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글
Comments