[매일 논문 초록 읽기 : 43일차] 특정 모델의 지식을 추출하여 다른 모델에게 전달하는 Knowledge Distillation

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 43일차] 특정 모델의 지식을 추출하여 다른 모델에게 전달하는 Knowledge Distillation 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 43일차] 특정 모델의 지식을 추출하여 다른 모델에게 전달하는 Knowledge Distillation

언유상 2023. 12. 22. 19:00

거의 대부분의 ML 알고리즘의 성능을 향상시키는 가장 간단한 방법은 같은 데이터에 대해 여러가지 모델을 사용하여 학습을 진행하고, 그들의 예측값에 대한 평균을 내는 것이다. 불행하게도, 모든 모델들의 앙상블을 사용하여 예측을 진행하는 것은 번거롭고, 많은 연산을 요구하므로 많은 사용자에게 배포하기 어려울 수 있다. 특히 각각의 모델이 매우 큰 신경망일 경우 더욱 그렇다.

Caruana와 collaborator들은 보다 배포하기 쉽도록, 앙상블 된 모델의 지식을 하나의 모델로 압축하는 것이 가능함을 보여왔고, 우리는 다른 압축 기술을 사용하여 이 접근법을 보다 발전시켰다. 우리는 MNIST에서 놀라운 결과를 달성하였고, 상당한 향상이 있음을 보였고, 앙상블 모델의 지식을 하나의 모델로 추출하여 대규모 시스템의 가공되지 않은 모델을 크게 개선할 수 있음을 보였다.

우리는 또한 하나 이상의 full model과, full model이 잘 혼동하는 세부 클래스를 구별하는 여러개의 specialist 모델들로 구성된 새로운 유형의 앙상블을 소개한다. MoE와 달리, 이러한 specialist 모델들은 병렬적이고 빠르게 훈련될 수 있다.

제목 : Distilling the Knowledge in a Neural Network

https://arxiv.org/abs/1503.02531

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

[매일 논문 초록 읽기 : 45일차] weak supervisor를 사용하여 큰 모델의 성능을 이끌어내는 weak-to-strong generalization (0)	2023.12.25
[매일 논문 초록 읽기 : 44일차] multimodal에 강점을 보이는 Gemini (0)	2023.12.25
[매일 논문 초록 읽기 : 42일차] Transformer 기반 LLM의 시간, 메모리 문제를 완화시킨 새로운 아키텍쳐 Zebra (0)	2023.12.22
[매일 논문 초록 읽기 : 41일차] 과학 논문 분야에서의 RAG 모델인 PaperQA와 이를 평가할 새로운 benchmark인 LitQA (2)	2023.12.20
[매일 논문 초록 읽기 : 40일차] LLM의 query 사용 능력을 조사하는 연구 (0)	2023.12.19

'건전한 학습생활 - 매일 논문 초록 읽기' Related Articles

Comments

언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 43일차] 특정 모델의 지식을 추출하여 다른 모델에게 전달하는 Knowledge Distillation 본문

[매일 논문 초록 읽기 : 43일차] 특정 모델의 지식을 추출하여 다른 모델에게 전달하는 Knowledge Distillation

'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글

티스토리툴바