[매일 논문 초록 읽기 : 25일차] teacher의 중간 layer들을 사용하여 student를 학습시키는 방법론인 Patient Knowledge Distillation

인공지능/매일 논문 초록 읽기

[매일 논문 초록 읽기 : 25일차] teacher의 중간 layer들을 사용하여 student를 학습시키는 방법론인 Patient Knowledge Distillation

언유상 2023. 12. 4. 09:43

BERT와 같은 사전학습 모델들은 여러가지 NLP task들에서 매우 효과적임이 입증되었다.
하지만, 모델을 학습하는 과정에는 많은 컴퓨팅 리소스들이 요구되고 이는 실제로 적용시키는 것을 방해한다.

대규모 모델 학습의 리소스 요구량을 낮추기 위해, 우리는 원본 큰 모델 (teacher)을 성능이 같은 작은 모델 (student)로 압축시키는 접근법인 Patient Knowledge Distilation을 제안한다.
teacher network의 마지막 layer에서 나온 output만을 사용하는 기존의 지식 증류 방법론과는 다르게, 우리의 student 모델은 점진적인 지식을 추출하기 위해 teacher 모델의 중간 layer들을 학습한다.

우리의 방법론은 다음의 두가지 전략을 따른다.
(i) PKD-Last : 마지막 k개의 layer로부터 학습한다.
(ii) PKD-Skip : k번째 layer로부터 학습한다.

이러한 지식 증류 방법론은 multilayer distillation 과정을 통해 student가 teacher의 hidden layer의 풍부한 지식을 사용할 수 있고, teacher를 닮아갈 수 있도록 한다.

이러한 변화는 여러가지 NLP task들에서 성능을 향상시켰으며, 모델의 성능을 낮추지 않고도 학습 효율을 높였다.

제목 : Patient Knowledge Distillation for BERT Model Compression

https://aclanthology.org/D19-1441.pdf

'인공지능 > 매일 논문 초록 읽기' 카테고리의 다른 글

[매일 논문 초록 읽기 : 27일차] hidden state를 사용하여 긴 문장 task에서 발견되는 prefix-tuning의 약점을 보완한 방법론인 prefix-propagation (1)	2023.12.06
[매일 논문 초록 읽기 : 26일차] 지식 증류 방법론에 대한 Survey (1)	2023.12.05
[매일 논문 초록 읽기 : 24일차] multi task 문제를 해결할 때 knowledge distillation과 prompt tuning을 결합한 MPT (1)	2023.12.03
[매일 논문 초록 읽기 : 23일차] 텍스트 기반 적대적 알고리즘을 사용한 지식 증류 방법론인 MATE-KD (0)	2023.12.02
[매일 논문 초록 읽기 : 22일차] BERT를 모듈화 하고, 모듈을 교체하는 방식을 사용하여 모델 압축을 해낸 방법론 (0)	2023.12.01

현재글[매일 논문 초록 읽기 : 25일차] teacher의 중간 layer들을 사용하여 student를 학습시키는 방법론인 Patient Knowledge Distillation

언유상씨의 건전한 취미생활

간단합니다. 건전합니다. 제맘입니다.

학습생활, 특수대학원, 백준, 건전한 취미생활, 주식, VOCALOID, C언어, *Luna, 알고리즘, 재태크, 인공지능, 소프트웨어융합대학원, 건전한, 취미생활, 구현, 국민대학교, 사회초년생, Python, 독학, c++,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

언유상씨의 건전한 취미생활