[매일 논문 초록 읽기 : 15일차] 대규모 신경망의 파라미터 속 내부 표현을 간단하게 만들어 student 모델에게 증류를 진행하는 방법론

인공지능/매일 논문 초록 읽기

[매일 논문 초록 읽기 : 15일차] 대규모 신경망의 파라미터 속 내부 표현을 간단하게 만들어 student 모델에게 증류를 진행하는 방법론

언유상 2023. 11. 24. 23:05

지식 증류는 일반적으로 작은 모델 (student model)이 크고 복잡한 (teacher model)의 행동을 따라하도록 훈련시킬 때 사용한다. 이러한 아이디어는 teacher model의 output probabilities를 softlabel로 사용하여 student model에데 최적화 하는 방식을 통해 지식을 압축하기 위해 사용된다. 하지만, teacher model이 매우 커지면, teacher의 내부 지식이 student에게 전이될 것이라는 보장이 없다.
만약 student가 softlabel과 매우 흡사해 지더라도, 그것의 내부 표현은 상당히 다를 수 있다.
이러한 내부적인 차이는 원래 teacher에서 student에게 전이시키려고 의도했던 일반적인 능력을 떨어트릴 수 있다. 이 논문에서, 우리는 BERT와 같이 큰 모델의 내부 표현을 간단하게 만들어 전이시키는 방법을 제안한다. 우리는 이러한 표현을 증류하는 2가지 방법을 제시하고, 증류를 수행하기 위한 여러가지 알고리즘을 제시한다. 우리는 GLUE benchmark 데이터셋으로 실험을 진행하였고, 단순히 soft-label을 사용한 distillation 보다 내부 표현을 distillation하는 과정을 추가하는 방식이 더 강력한 방법론임을 일관되게 보였다.

제목 : Knowledge Distillation from Internal Representations

https://arxiv.org/abs/1910.03723

'인공지능 > 매일 논문 초록 읽기' 카테고리의 다른 글

[매일 논문 초록 읽기 : 17일차] Knowledge Distillation과 Meta Learning을 결합한 MetaDistil (teacher를 지식 전이에 효과적으로 만드는 방법론) (0)	2023.11.26
[매일 논문 초록 읽기 : 16일차] teacher의 성능이 student의 성능과 비례하지 않는다는 문제점을 해결하기 위한 방법론인 LGTM (2)	2023.11.25
[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation (0)	2023.11.23
[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론 (1)	2023.11.22
[매일 논문 초록 읽기 : 12일차] 각 layer별로 prefix 를 조정하는 APT (2)	2023.11.21

현재글[매일 논문 초록 읽기 : 15일차] 대규모 신경망의 파라미터 속 내부 표현을 간단하게 만들어 student 모델에게 증류를 진행하는 방법론

언유상씨의 건전한 취미생활

간단합니다. 건전합니다. 제맘입니다.

사회초년생, 소프트웨어융합대학원, 학습생활, 재태크, 특수대학원, c++, *Luna, 취미생활, 건전한 취미생활, 백준, 독학, 구현, 국민대학교, VOCALOID, 알고리즘, C언어, 주식, Python, 건전한, 인공지능,

Today :
Yesterday :

언유상씨의 건전한 취미생활