언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 15일차] 대규모 신경망의 파라미터 속 내부 표현을 간단하게 만들어 student 모델에게 증류를 진행하는 방법론 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 15일차] 대규모 신경망의 파라미터 속 내부 표현을 간단하게 만들어 student 모델에게 증류를 진행하는 방법론

언유상 2023. 11. 24. 23:05

지식 증류는 일반적으로 작은 모델 (student model)이 크고 복잡한 (teacher model)의 행동을 따라하도록 훈련시킬 때 사용한다. 이러한 아이디어는 teacher model의 output probabilities를 softlabel로 사용하여 student model에데 최적화 하는 방식을 통해 지식을 압축하기 위해 사용된다. 하지만, teacher model이 매우 커지면, teacher의 내부 지식이 student에게 전이될 것이라는 보장이 없다. 
만약 student가 softlabel과 매우 흡사해 지더라도, 그것의 내부 표현은 상당히 다를 수 있다.
이러한 내부적인 차이는 원래 teacher에서 student에게 전이시키려고 의도했던 일반적인 능력을 떨어트릴 수 있다. 이 논문에서, 우리는 BERT와 같이 큰 모델의 내부 표현을 간단하게 만들어 전이시키는 방법을 제안한다. 우리는 이러한 표현을 증류하는 2가지 방법을 제시하고, 증류를 수행하기 위한  여러가지 알고리즘을 제시한다. 우리는 GLUE benchmark 데이터셋으로 실험을 진행하였고, 단순히 soft-label을 사용한 distillation 보다 내부 표현을 distillation하는 과정을 추가하는 방식이 더 강력한 방법론임을 일관되게 보였다.

 

제목 : Knowledge Distillation from Internal Representations

https://arxiv.org/abs/1910.03723

Comments