언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 32일차] teacher와 student의 크기 차이가 클 때 학습이 잘 되지 않는 문제를 완화하기 위해 teacher assistant를 사용한 방법론 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 32일차] teacher와 student의 크기 차이가 클 때 학습이 잘 되지 않는 문제를 완화하기 위해 teacher assistant를 사용한 방법론

언유상 2023. 12. 11. 13:50

deep neural network가 강력한 모델이고 많은 task들에서 좋은 성능을 달성한 것은 사실임에도 불구하고, 그들은 스마트폰이나 내장 센서 노드들과 같은 edge device들에 배포하기에는 너무 크다. 이러한 network들을 압축하려는 노력이 있고, 인기 있는 방법론으로는 큰 (teacher) 사전학습 network를 작은 (student) network를 학습하는데 사용하는 knowledge distillation이 있다.

 

하지만, 우리는 이 논문에서 student와 teacher 사이의 차이가 클때 student network의 성능이 하락함을 보인다. 고정된 studnet network는 임의의 큰 teacher를 사용할 수 없다. 다르게 말하면, teacher는 student가 작기만 한것이 아니라 특정한 크기 이상일 때 teacher의 지식을 효과적으로 전이시킬 수 있다.

 

이러한 단점을 해결하기 위해, 우리는 중간 사이즈의 network (teacher assistant)를 사용하여 student와 teacher 사이의 차이를 연결하는 multi-step knowledge distillation을 소개한다. 게다가 우리는 teacher assistant의 크기의 효과성에 대해 연구하였고, 이 프레임워크를 multi-step distillation으로 확장하였다.

 

이론적인 분석과 CIFAR-10, 100과 ImageNet 데이터셋에 대해 CNN과 ResNet 아키텍쳐를 사용한 광범위한 실험은 우리가 제안한 방법론의 효과성을 실체화 하였다.

 

 

제목 : Improved Knowledge Distillation via Teacher Assistant

https://ojs.aaai.org/index.php/AAAI/article/view/5963

Comments