언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 35일차] self-attention distllation을 사용하여 Transformer 기반 사전학습 언어모델을 압축하는 MiniLMv2 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 35일차] self-attention distllation을 사용하여 Transformer 기반 사전학습 언어모델을 압축하는 MiniLMv2

언유상 2023. 12. 14. 15:26

 우리는 MiniLM에서 제안된 심층 self-attention distillation을 일반화하여, 사전학습된 Transformer의 task-agnostic 압축을 위해 self-attention relation distillation만을 사용한다. 특히, 우리는 multi-head self-attetion 관계를 self-attention 모듈 내의 query, key, value vector 쌍 간의 scaled dot-prodict으로 정의한다. 그리고 우리는 student model을 학습하기 위해 연관된 지식을 사용하였다.

 

 이 방법의 간단함과 통합된 원칙 외에도 student의 attention head의 개수에 제한이 없다는 장점이 있다. 이는 과거의 연구들이 teacher와 student간 head의 수를 같게 보장해 준것과는 대비된다. 게다가, 세밀한 self-attention관계는 Transformer에 의해 학습된 연관 지식을 충분히 사용하는 경향이 있다.

 

 추가적으로, 우리는 MiniLM처럼 마지막 layer에 의존하지 않고 teacher model에 대한 layer 선택 전략을 철저히 검토하였다.

우리는 단일언어, 다중언어 사전학습 모델에 대해 압축을 진행하는 실험을 진행하였다. 실험 결과는 BERT, RoBERTa, XLM-R의 base, large 사이즈 모델에서 지식을 증류받은 우리의 모델들이 SOTA를 뛰어넘는 결과를 달성한 것을 보여준다.

 

제목 : MINILMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers

https://arxiv.org/abs/2012.15828

Comments