언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론

언유상 2023. 11. 22. 18:20

Knowledge distillation 동시에 학습이 진행되는 teacher, student라는 이름의 neural network에서 학습, 압축 전략으로 고려된다. Teacher network 믿을만한 예측을 해야 하고, student teacher 예측을 따라하기 위해 노력한다. 대게 student 압축과 동시에 좋은 성능을 보이기 위해 가벼운 아키텍처로 선택된다. 내부 원소들에 대한 teacher 감독으로 student 이득을 있지만, 이러한 설정에서는 distillation 오직 최종 결과물에만 영향을 끼친다. 이것에 동기부여를 받아, 우리는 중간 layer들에 distillation 하는 문제에 대해 연구했다. student teacher 모든 layer 일대일로 대응시킬 없으므로, 존재하는 기술들은 몇몇개의 teacher layer 뛰어넘고 일부만 distill 사용한다. 이러한 단점은 성능에 바로 효과를 주기 떄문에, 우리는 attention 의존하는 기술을 제안한다. 우리의 모델은 teacher 모델의 정보들을 융합하여 layer 중요하게 고려하는 것을 수집하고, 병합된 teacher layer student에게 distillation 진행한다. 우리의 기술을 사용하여, 12-layer BERT 6- 4- 2- distillation 진행하고 GLUE task 평가하였다.실험적 결과는 우리의 결합 방식이 기존 기술들보다 좋은 성능을 있음을 보여준다.

 

제목 : ALP-KD: Attention-Based Layer Projection for Knowledge Distillation

https://arxiv.org/abs/2012.14022

Comments