언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 11일차] Transformer에 knowledge distillation을 접합시킨 TinyBERT 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 11일차] Transformer에 knowledge distillation을 접합시킨 TinyBERT

언유상 2023. 11. 20. 13:31

BERT 같은 사전학습 언어모델은 많은 자연어처리 task 대한 성능을 향상시켰다. 하지만, 사전학습된 언어모델들은 대체로 많은 양의 컴퓨팅 자원을 요하고, 그러므로 자원이 제한된 기기에서 사전학습 언어모델들을 효율적으로 실행시키는 것은 어렵다. 성능을 유지하면서 모델의 크기를 낮추고 추론을 빠르게 하기 위해서, 우리는 우선 Transformer기반 모델들에 knowledge distillation 적용하기 위해 특별히 디자인된 새로운 Transformer distillation 방법론을 제시한다. 새로운 KD 방법론을 활용하면, “teacher” BERT 인코딩 되어 있는 많은 양의 지식들을 작은 “student” Tiny-BERT 효과적으로 전이할 있다. 그리고 우리는 TinyBERT KD 사용하여 사전학습과 구체적인 task 대해 단계로 학습시키는 프레임워크를 소개한다. 프레임워크는 구체적인 task 맞춰진 BERT 만큼 일반적인 도메인 지식을 학습할 있다. 4개의 layer 가진 TinyBERT4 경험적으로 효과적이며, GLUE benchmark 대하여 teacher model BERT-base 비해 7.5 작지만 추론에 9.4 빨랐고, teacher model 성능의 96.8% 이상의 성능을 달성하였다. TinyBERT4 4-layer BERT distillation 적용하여 SOTA 달성한 모델 대비 28% 파라미터만 사용하고, 31% 추론 시간을 가지며 좋은 성능을 달성하였다. 또한, 6개의 layer 가진 TinyBERT6 teacher BERT-base 같은 성능을 달성하였다.

 

제목 : TinyBERT: Distilling BERT for Natural Language Understanding

https://arxiv.org/abs/1909.10351

 

Comments