언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 49일차] 모델의 soft target probability를 사용하여 자기 자신의 학습을 진행하는 Self-Knowledge Distillation 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 49일차] 모델의 soft target probability를 사용하여 자기 자신의 학습을 진행하는 Self-Knowledge Distillation

언유상 2023. 12. 28. 00:45

 딥러닝이 NLP의 핵심이 됨에 따라, 많은 딥러닝 모델들은 다양한 NLP task에서 눈에 띄는 성능을 달성하였고, 몇몇 모델은 인간을 뛰어넘는 성능을 달성하였다. 이러한 높은 성능은 딥러닝 모델의 효율적인 지식 표현으로 달성한 것이라고 설명할 수 있다. 많은 방법론들이 더 효율적인 표현을 학습시키기 위해 제안되었고, 사전학습된 심층 신경망으로부터의 지식증류는 우리가 다른 신경망을 학습시킬 때 soft target으로부터 더 많은 정보를 사용할 수 있다는 것을 제안한다.

 

 이 논문에서, 우리는 훈련 모델 자체의 soft target 확률에 기반한 새로운 지식 증류 방법론인 Self-Knowledge Distillation을 제안한다. 여기서 다중 모드 정보는 softmax layer 바로 아래애 있는 word embedding 공간에서 증류된다. 시간 복잡도 때문에, 우리의 방법론은 soft target의 확률값을 대략적으로 계산한다. 실험을 통해, 우리가 제안한 방법론을 2개의 기본적인 NLP task인 언어 모델과 신경망 통역에 적용하였다. 실험의 결과는 우리의 방법론이 모델의 성능을 향상시킴을 보였다.

 

제목 :Self-Knowledge Distillation in Natural Language Processing

https://arxiv.org/pdf/1908.01851.pdf

Comments