일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 프로젝트
- 알고리즘
- 건전한 취미생활
- GUI
- 건전한
- CSS
- PyQT5
- 원소 삭제
- c++
- 과제
- 날씨
- 독학
- 학습생활
- 단계별로풀어보기
- C언어
- 텍스트 관련
- OSAM
- HTML
- 텍스트 관련 태그들
- VOCALOID
- A - B
- 원소 추가
- *Luna
- Python
- 취미생활
- 연결리스트
- 구현
- 메일
- A×B
- 백준
- Today
- Total
언유상씨의 건전한 취미생활
[매일 논문 초록 읽기 : 11일차] Transformer에 knowledge distillation을 접합시킨 TinyBERT 본문
[매일 논문 초록 읽기 : 11일차] Transformer에 knowledge distillation을 접합시킨 TinyBERT
언유상 2023. 11. 20. 13:31BERT와 같은 사전학습 언어모델은 많은 자연어처리 task에 대한 성능을 향상시켰다. 하지만, 사전학습된 언어모델들은 대체로 많은 양의 컴퓨팅 자원을 요하고, 그러므로 자원이 제한된 기기에서 사전학습 언어모델들을 효율적으로 실행시키는 것은 어렵다. 성능을 유지하면서 모델의 크기를 낮추고 추론을 빠르게 하기 위해서, 우리는 우선 Transformer기반 모델들에 knowledge distillation을 적용하기 위해 특별히 디자인된 새로운 Transformer distillation 방법론을 제시한다. 새로운 KD 방법론을 활용하면, 큰 “teacher” BERT에 인코딩 되어 있는 많은 양의 지식들을 작은 “student” Tiny-BERT에 효과적으로 전이할 수 있다. 그리고 우리는 TinyBERT를 KD를 사용하여 사전학습과 구체적인 task에 대해 두 단계로 학습시키는 프레임워크를 소개한다. 이 프레임워크는 구체적인 task에 맞춰진 BERT 만큼 일반적인 도메인 지식을 학습할 수 있다. 4개의 layer를 가진 TinyBERT4는 경험적으로 효과적이며, GLUE benchmark에 대하여 teacher model인 BERT-base에 비해 7.5배 작지만 추론에 9.4배 빨랐고, teacher model 성능의 96.8% 이상의 성능을 달성하였다. TinyBERT4는 4-layer BERT에 distillation을 적용하여 SOTA를 달성한 모델 대비 28%의 파라미터만 사용하고, 31%의 추론 시간을 가지며 더 좋은 성능을 달성하였다. 또한, 6개의 layer를 가진 TinyBERT6는 teacher BERT-base와 같은 성능을 달성하였다.
제목 : TinyBERT: Distilling BERT for Natural Language Understanding
https://arxiv.org/abs/1909.10351
'건전한 학습생활 - 매일 논문 초록 읽기' 카테고리의 다른 글
[매일 논문 초록 읽기 : 13일차] layer의 개수가 같지 않은 상황에서 Teacher의 layer를 압축하여 정보를 distillation하는 방법론 (1) | 2023.11.22 |
---|---|
[매일 논문 초록 읽기 : 12일차] 각 layer별로 prefix 를 조정하는 APT (2) | 2023.11.21 |
[매일 논문 초록 읽기 : 10일차] 오픈소스가 아닌 챗봇 모델의 대항마로 나온 Llama 2 (0) | 2023.11.10 |
[매일 논문 초록 읽기 : 9일차] LLM이 학습한 사회적 편향의 리스크를 낮출 수 있는 데이터 셋 (0) | 2023.11.09 |
[매일 논문 초록 읽기 : 8일차] LLM에 추론 능력을 부여하는 Chain of thought (0) | 2023.11.08 |