언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 28일차] 데이터 증강을 통해 지식 증류의 단점을 보완한 방법론인 AD 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 28일차] 데이터 증강을 통해 지식 증류의 단점을 보완한 방법론인 AD

언유상 2023. 12. 7. 22:25

크고 깊은 사전학습 언어모델 (BERT, GPT-3)들은 여러가지 NLP task들에서 SOTA를 달성하였다. 하지만, 이 모델들의 거대한 크기는 지연 시간과 비용 제약으로 인해 fine-tuning과 온라인 적용에 어려움을 가져온다. 현존하는 지식 증류 방법론들은 모델의 크기를 줄이지만, 이것들은 downstream task의 한정된 데이터로 인해 teacher model에서 student model로 지식을 전이하는데 어려움을 갖는다.

이 연구에서, 우리는 큰 규모의 사전학습된 transformer model을 압축할 때, 특정 task의 지식 전이를 향상시키는 새롭고 효과적인 데이터 증강 접근론인 AD를 제안한다. 기존의 방법론과 다르게, AD는 원본 입력값과 teacher의 출력 분포를 모방하는 적대적으로 교란된 예시들로 구성된 추가적인 training set을 사용하여 증류를 진행한다. 

실험 결과는 기존의 NLP task들에 대해 지식 증류 방식을 사용한 모델 대비 평균 1.2%의 정확도 상승을 보였고, student model이 teacher model의 99.6% 정확도를 보이면서, 이 방법론이 teacher가 student에게 더 나은 전이를 할 수 있도록 하는 것을 보였다. 그리고 text-editing-based 접근법과 같은 데이터 증강 방법론들의 대안과 비교하였을 때, AD는 비슷하거나 높은 정확도를 달성하는데 28배나 빨랐다.  게다가, AD를 더 확장된 task-agnostic distillation과 결합하였을 때, 우리는 SOTA의 성능을 넘길 수 있었다.


최고의 성능과 함께, 이 논문은 철저한 분할 연구들과 분석도 제안한다. 지식 증류와 사전학습 transformer 압축을 위한 적대적 데이터 증강 간의 관계를 발견한 것은 더 큰 모델들을 압축하기 위한 더 발전된 지식 증류 알고리즘에 영감을 줄 것이다.

제목 : Adversarial Data Augmentation for Task-Specific Knowledge Distillation of Pre-trained Transformers

https://ojs.aaai.org/index.php/AAAI/article/view/21423

Comments