일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 원소 추가
- HTML
- 프로젝트
- 독학
- 백준
- 텍스트 관련 태그들
- Python
- 학습생활
- c++
- 구현
- 날씨
- 취미생활
- 원소 삭제
- *Luna
- OSAM
- PyQT5
- 알고리즘
- 과제
- 연결리스트
- 건전한
- 메일
- GUI
- 건전한 취미생활
- A×B
- VOCALOID
- 텍스트 관련
- 단계별로풀어보기
- CSS
- C언어
- A - B
- Today
- Total
목록건전한 학습생활 - 매일 논문 초록 읽기 (61)
언유상씨의 건전한 취미생활
사전학습 언어모델은 NLP task들에서 눈에 띄는 성공을 이루어냈지만, 모델 크기를 키워야 한다는 비용을 치러야 했다. 이러한 문제를 해결하기 위해서, 지식 증류는 언어모델을 압축하는데 광범위하게 적용되었다. 하지만, 언어모델에 대한 일반적인 KD 방법론은 학습 예제들의 난이도를 간과하여, teacher 모델의 부정확한 예측 전이, 비효율적인 방법 사용 등에 시달리고 있다. 이 논문에서, 우리는 사전학습을 진행하는 과정에서 학습 예제들의 난이도를 조절하여 distillation의 효율성을 향상시키는 새로운 KD 프레임워크, Tutor-KD를 소개한다. 우리는 student에게는 어렵지만 teacher에게는 쉬는 예제들을 생성하고, 조심스럽게 디자인된 Policy gradient 방법론으로 학습시킨다. ..
크고 깊은 사전학습 언어모델 (BERT, GPT-3)들은 여러가지 NLP task들에서 SOTA를 달성하였다. 하지만, 이 모델들의 거대한 크기는 지연 시간과 비용 제약으로 인해 fine-tuning과 온라인 적용에 어려움을 가져온다. 현존하는 지식 증류 방법론들은 모델의 크기를 줄이지만, 이것들은 downstream task의 한정된 데이터로 인해 teacher model에서 student model로 지식을 전이하는데 어려움을 갖는다. 이 연구에서, 우리는 큰 규모의 사전학습된 transformer model을 압축할 때, 특정 task의 지식 전이를 향상시키는 새롭고 효과적인 데이터 증강 접근론인 AD를 제안한다. 기존의 방법론과 다르게, AD는 원본 입력값과 teacher의 출력 분포를 모방하는 ..
파라미터 효율적인 조정은 사전학습된 언어모델을 downstream task들에 대해서 적응 시키는데 사용되는 큰 메모리 요구량을 낮춰주는 것을 목표로 한다. 예를 들면, 유명한 방법론인 prefix-tuning의 경우, 모델의 앞부분에 위치한 학습 가능한 token들을 추가하고, 모델의 나머지 파라미터를 freeze 시킨다. 문장의 길이가 짧거나, 중간의 경우에는 몇몇 모델에서 fine-tuning을 적용한 방법과 경쟁력 있는 성능을 달성하지만, 우리는 긴 문장의 경우에는 성능이 떨어지는 것을 보았다. 이러한 간극을 좁히기 위해, 우리는 이전의 hidden state들을 사용하여 prefix들을 조절하는 간단하지만 효율적인 접근법인 prefix-propagation을 제안한다. 우리는 50% 미만의 파라..
최근 몇년간, deep neural network 들은 computer vision task들에 대해 산업과 학계 모두에서 성공적인 모습을 보였다. 딥러닝의 대성공은 대규모 데이터를 encode하고, 모델이 가지고 있는 10억개의 파라미터들을 가동했기 때문이다. 하지만 핸드폰이나 임베디드 디바이스와 같이, 한정된 리소스를 가진 디바이스에 큰 모델을 넣는 것은 매우 어렵다. 큰 모델들은 저장 용량을 많이 요구하고, 높은 컴퓨팅 복잡도를 요구하기 때문이다. 이러다보니, 모델을 압축하고 추론을 빠르게 만드는 여러가지 기술들이 개발되었다. 모델의 압축과 가속을 표현하는 방법 중, 지식 증류는 큰 teacher model로 작은 student model을 효율적으로 학습시킨다. 이것은 커뮤니티의 이목을 집중시켰다..
BERT와 같은 사전학습 모델들은 여러가지 NLP task들에서 매우 효과적임이 입증되었다. 하지만, 모델을 학습하는 과정에는 많은 컴퓨팅 리소스들이 요구되고 이는 실제로 적용시키는 것을 방해한다. 대규모 모델 학습의 리소스 요구량을 낮추기 위해, 우리는 원본 큰 모델 (teacher)을 성능이 같은 작은 모델 (student)로 압축시키는 접근법인 Patient Knowledge Distilation을 제안한다. teacher network의 마지막 layer에서 나온 output만을 사용하는 기존의 지식 증류 방법론과는 다르게, 우리의 student 모델은 점진적인 지식을 추출하기 위해 teacher 모델의 중간 layer들을 학습한다. 우리의 방법론은 다음의 두가지 전략을 따른다. (i) PKD-L..
학습된 프롬프트 벡터들을 조정하는 방식을 통해 사전학습된 모델들을 특정 task에 맞추는 prompt tuning은 여러가지 downstream task들에 LLM을 효율적으로 맞추는 방법이 되었다. 하지만, 존재하는 방법론들은 일반적으로 소프트 프롬프트 벡터를 처음부터 학습시키고, 이러한 방법은 multitask learning 설정에서 프롬프트 벡터들을 사용했을때 task간의 풍부한 지식을 어떻게 사용하는지에 대해서는 명확하지 않다. 우리는 multitask prompt tuning (MPT)를 제안한다. 먼저 여러개의 task 별 source prompt 로부터 지식을 추출하여 전이 가능한 프롬프트를 학습시킨다. 그리고 각각의 downstream target task들에게 공유된 프롬프트를 효율적으..
거대한 사전학습 언어모델의 출현은 NLP 분야에서 빠른 발전을 가져다 주었다. 표준 benchmark들에서 모델들의 성능은 크기에 비례하지만, 지식 증류와 같은 압축 기술은 이러한 모델들을 실용적으로 만드는데 핵심적인 역할을 했다. 우리는 지식 증류의 성능을 향상시키는 텍스트 기반의 적대적 알고리즘인 MATE-KD를 제안한다. MATE-KD는 먼저 teacher과 student의 logit의 차이를 극대화 하는 방향으로 masked language model 기반의 생성기를 훈련시켜 텍스트를 교란시킨다. 그리고 지식 증류를 사용하여 student를 원본 데이터와 교란된 학습 예제들로 학습을 시킨다. 우리는 GLUE benchmark에 대해 BERT-based model를 사용하여 우리의 알고리즘을 평가하..
이 논문에서, 우리는 progressive module replacing을 사용하여 BERT를 효과적으로 압축하는 새로운 모델 압축 접근법을 제안한다. 우리의 방법론은 먼저 original BERT를 여러개의 모듈로 나누고, 그것들을 대체하는 compact module을 구축한다. 그리고, 우리는 무작위 original module들을 compact module들로 대체하여 original module들의 행동을 모방하도록 학습시킨다. 우리는 학습 과정을 통해 교체 확률을 높여 나갔다. 이러한 방법을 통해, 우리의 접근법은 original model과 compact model의 상호 작용을 더 깊은 단계로 이끌었다. BERT 압축을 위한 기존의 지식 증류 방법과 비교하면, 우리의 접근법은 추가적인 los..