언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 29일차] Student와 Teacher에게 적합한 난이도의 훈련 예제를 생성하는 방법을 추가한 Tutor-KD 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 29일차] Student와 Teacher에게 적합한 난이도의 훈련 예제를 생성하는 방법을 추가한 Tutor-KD

언유상 2023. 12. 9. 20:21

사전학습 언어모델은 NLP task들에서 눈에 띄는 성공을 이루어냈지만, 모델 크기를 키워야 한다는 비용을 치러야 했다. 이러한 문제를 해결하기 위해서, 지식 증류는 언어모델을 압축하는데 광범위하게 적용되었다.

 

하지만, 언어모델에 대한 일반적인 KD 방법론은 학습 예제들의 난이도를 간과하여, teacher 모델의 부정확한 예측 전이, 비효율적인 방법 사용 등에 시달리고 있다.

 

이 논문에서, 우리는 사전학습을 진행하는 과정에서 학습 예제들의 난이도를 조절하여 distillation의 효율성을 향상시키는 새로운 KD 프레임워크, Tutor-KD를 소개한다.

우리는 student에게는 어렵지만 teacher에게는 쉬는 예제들을 생성하고, 조심스럽게 디자인된 Policy gradient 방법론으로 학습시킨다.

 

실험 결과는 Tutor-KD가 GLUE benchmark에서 다양한 크기의 student model들에 대해 KD 방법론을 적용한 것들 중 SOTA를 달성하였고, tutor의 존재가 student를 위한 학습 예제들을 효율적으로 생성해줄 수 있음을 보였다.

 

제목 : Tutoring Helps Students Learn Better: Improving Knowledge Distillation for BERT with Tutor Network

https://aclanthology.org/2022.emnlp-main.498/

 

 

Comments