일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 연결리스트
- GUI
- 알고리즘
- 건전한
- 단계별로풀어보기
- 메일
- *Luna
- 구현
- 텍스트 관련
- 독학
- 과제
- VOCALOID
- OSAM
- c++
- A×B
- 학습생활
- 원소 삭제
- HTML
- PyQT5
- C언어
- A - B
- 취미생활
- 백준
- 텍스트 관련 태그들
- Python
- CSS
- 원소 추가
- 프로젝트
- 건전한 취미생활
- 날씨
- Today
- Total
언유상씨의 건전한 취미생활
[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론 본문
[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론
언유상 2023. 11. 22. 18:20Knowledge distillation은 동시에 학습이 진행되는 teacher, student라는 이름의 두 neural network에서 학습, 압축 전략으로 고려된다. Teacher network는 믿을만한 예측을 해야 하고, student는 teacher의 예측을 따라하기 위해 노력한다. 대게 student는 압축과 동시에 좋은 성능을 보이기 위해 가벼운 아키텍처로 선택된다. 내부 원소들에 대한 teacher의 감독으로 student가 이득을 볼 수 있지만, 이러한 설정에서는 distillation은 오직 최종 결과물에만 영향을 끼친다. 이것에 동기부여를 받아, 우리는 중간 layer들에 distillation을 하는 문제에 대해 연구했다. student와 teacher의 모든 layer를 일대일로 대응시킬 수 없으므로, 존재하는 기술들은 몇몇개의 teacher layer를 뛰어넘고 일부만 distill에 사용한다. 이러한 단점은 성능에 바로 효과를 주기 떄문에, 우리는 attention에 의존하는 기술을 제안한다. 우리의 모델은 teacher 모델의 정보들을 융합하여 각 layer가 중요하게 고려하는 것을 수집하고, 병합된 teacher layer를 student에게 distillation을 진행한다. 우리의 기술을 사용하여, 12-layer BERT를 6- 4- 2- 로 distillation을 진행하고 GLUE task로 평가하였다.실험적 결과는 우리의 결합 방식이 기존 기술들보다 좋은 성능을 낼 수 있음을 보여준다.
제목 : ALP-KD: Attention-Based Layer Projection for Knowledge Distillation