언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 25일차] teacher의 중간 layer들을 사용하여 student를 학습시키는 방법론인 Patient Knowledge Distillation 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 25일차] teacher의 중간 layer들을 사용하여 student를 학습시키는 방법론인 Patient Knowledge Distillation

언유상 2023. 12. 4. 09:43

BERT와 같은 사전학습 모델들은 여러가지 NLP task들에서 매우 효과적임이 입증되었다.
하지만, 모델을 학습하는 과정에는 많은 컴퓨팅 리소스들이 요구되고 이는 실제로 적용시키는 것을 방해한다.

대규모 모델 학습의 리소스 요구량을 낮추기 위해, 우리는 원본 큰 모델 (teacher)을 성능이 같은 작은 모델 (student)로 압축시키는 접근법인 Patient Knowledge Distilation을 제안한다.
teacher network의 마지막 layer에서 나온 output만을 사용하는 기존의 지식 증류 방법론과는 다르게, 우리의 student 모델은 점진적인 지식을 추출하기 위해 teacher 모델의 중간 layer들을 학습한다.

우리의 방법론은 다음의 두가지 전략을 따른다.
(i) PKD-Last : 마지막 k개의 layer로부터 학습한다.
(ii) PKD-Skip : k번째 layer로부터 학습한다.

이러한 지식 증류 방법론은 multilayer distillation 과정을 통해 student가 teacher의 hidden layer의 풍부한 지식을 사용할 수 있고, teacher를 닮아갈 수 있도록 한다.

이러한 변화는 여러가지 NLP task들에서 성능을 향상시켰으며, 모델의 성능을 낮추지 않고도 학습 효율을 높였다.

 

제목 : Patient Knowledge Distillation for BERT Model Compression

https://aclanthology.org/D19-1441.pdf

Comments