[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론

언유상 2023. 11. 22. 18:20

Knowledge distillation은 동시에 학습이 진행되는 teacher, student라는 이름의 두 neural network에서 학습, 압축 전략으로 고려된다. Teacher network는 믿을만한 예측을 해야 하고, student는 teacher의 예측을 따라하기 위해 노력한다. 대게 student는 압축과 동시에 좋은 성능을 보이기 위해 가벼운 아키텍처로 선택된다. 내부 원소들에 대한 teacher의 감독으로 student가 이득을 볼 수 있지만, 이러한 설정에서는 distillation은 오직 최종 결과물에만 영향을 끼친다. 이것에 동기부여를 받아, 우리는 중간 layer들에 distillation을 하는 문제에 대해 연구했다. student와 teacher의 모든 layer를 일대일로 대응시킬 수 없으므로, 존재하는 기술들은 몇몇개의 teacher layer를 뛰어넘고 일부만 distill에 사용한다. 이러한 단점은 성능에 바로 효과를 주기 떄문에, 우리는 attention에 의존하는 기술을 제안한다. 우리의 모델은 teacher 모델의 정보들을 융합하여 각 layer가 중요하게 고려하는 것을 수집하고, 병합된 teacher layer를 student에게 distillation을 진행한다. 우리의 기술을 사용하여, 12-layer BERT를 6- 4- 2- 로 distillation을 진행하고 GLUE task로 평가하였다.실험적 결과는 우리의 결합 방식이 기존 기술들보다 좋은 성능을 낼 수 있음을 보여준다.

제목 : ALP-KD: Attention-Based Layer Projection for Knowledge Distillation

https://arxiv.org/abs/2012.14022

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

[매일 논문 초록 읽기 : 15일차] 대규모 신경망의 파라미터 속 내부 표현을 간단하게 만들어 student 모델에게 증류를 진행하는 방법론 (0)	2023.11.24
[매일 논문 초록 읽기 : 14일차] 대규모 신경망의 파라미터 속 지식을 소규모 신경망으로 전이시키는 Weight Distillation (0)	2023.11.23
[매일 논문 초록 읽기 : 12일차] 각 layer별로 prefix 를 조정하는 APT (2)	2023.11.21
[매일 논문 초록 읽기 : 11일차] Transformer에 knowledge distillation을 접합시킨 TinyBERT (1)	2023.11.20
[매일 논문 초록 읽기 : 10일차] 오픈소스가 아닌 챗봇 모델의 대항마로 나온 Llama 2 (0)	2023.11.10

'건전한 학습생활 - 매일 논문 초록 읽기' Related Articles

Comments

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론 본문

[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

티스토리툴바