일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 학습생활
- 백준
- GUI
- CSS
- 텍스트 관련 태그들
- 구현
- 원소 추가
- 건전한 취미생활
- A - B
- VOCALOID
- *Luna
- 단계별로풀어보기
- 건전한
- 취미생활
- 메일
- 과제
- 날씨
- 프로젝트
- 알고리즘
- PyQT5
- 텍스트 관련
- A×B
- OSAM
- C언어
- 독학
- 연결리스트
- c++
- 원소 삭제
- HTML
- Python
- Today
- Total
목록분류 전체보기 (111)
언유상씨의 건전한 취미생활
현실 세계의 여러가지 상황들에서, 머신러닝 모델을 학습하는데 사용되는 데이터는 시간이 지남에 따라 제공된다. 불행하게도, 이러한 모델들은 과거에 배운것들을 잃어버리지 않으면서 새로운 개념들을 계속 배우기 위해 노력하고 있다. 이러한 현상은 catastrophic forgetting으로 알려져 있고, 이것은 여러가지 현실적인 제약들로 인해 예방하기 어렵다. 예를 들어, 저장될 수 있는 데이터의 양 또는 컴퓨팅 자원이 한정될 수 있다. 게다가, 많은 응용 프로그램들이 사전학습된 Transformer와 같은 거대한 사전학습 neural network에 의존하고 있다. 왜냐하면 모델을 처음부터 학습시킬 자원이나 데이터의 양이 많지 않기 때문이다. 이 논문에서, 우리는 사전학습된 Transformer를 사용하여 ..
NLP는 1억개의 파라미터를 가지고 있는 거대한 사전학습 모델을 사용하여 최근 큰 성공을 거두었다. 하지만, 이러한 모델들은 큰 모델 사이즈와, 높은 지연시간으로 인해 자원이 한정된 모바일 디바이스에 적용할 수 없는 등의 문제점이 있다. 이 논문에서, 우리는 유명한 BERT model을 압축하고 지연시간을 낮춘 MobileBERT를 제안한다. 원래 BERT와 같이, MobileBERT는 task-agnostic, 즉, 간단한 fine-tuning을 통해 여러 downstream NLP task들에 일반적으로 적용할 수 있다. 기본적으로, MobileBERT는 BERT-Large에 병목 구조를 추가하고 self-attention과 feed-forward network 간의 균형을 세심하게 디자인한 축소 버..
사전학습 언어모델은 NLP task들에서 눈에 띄는 성공을 이루어냈지만, 모델 크기를 키워야 한다는 비용을 치러야 했다. 이러한 문제를 해결하기 위해서, 지식 증류는 언어모델을 압축하는데 광범위하게 적용되었다. 하지만, 언어모델에 대한 일반적인 KD 방법론은 학습 예제들의 난이도를 간과하여, teacher 모델의 부정확한 예측 전이, 비효율적인 방법 사용 등에 시달리고 있다. 이 논문에서, 우리는 사전학습을 진행하는 과정에서 학습 예제들의 난이도를 조절하여 distillation의 효율성을 향상시키는 새로운 KD 프레임워크, Tutor-KD를 소개한다. 우리는 student에게는 어렵지만 teacher에게는 쉬는 예제들을 생성하고, 조심스럽게 디자인된 Policy gradient 방법론으로 학습시킨다. ..
크고 깊은 사전학습 언어모델 (BERT, GPT-3)들은 여러가지 NLP task들에서 SOTA를 달성하였다. 하지만, 이 모델들의 거대한 크기는 지연 시간과 비용 제약으로 인해 fine-tuning과 온라인 적용에 어려움을 가져온다. 현존하는 지식 증류 방법론들은 모델의 크기를 줄이지만, 이것들은 downstream task의 한정된 데이터로 인해 teacher model에서 student model로 지식을 전이하는데 어려움을 갖는다. 이 연구에서, 우리는 큰 규모의 사전학습된 transformer model을 압축할 때, 특정 task의 지식 전이를 향상시키는 새롭고 효과적인 데이터 증강 접근론인 AD를 제안한다. 기존의 방법론과 다르게, AD는 원본 입력값과 teacher의 출력 분포를 모방하는 ..
파라미터 효율적인 조정은 사전학습된 언어모델을 downstream task들에 대해서 적응 시키는데 사용되는 큰 메모리 요구량을 낮춰주는 것을 목표로 한다. 예를 들면, 유명한 방법론인 prefix-tuning의 경우, 모델의 앞부분에 위치한 학습 가능한 token들을 추가하고, 모델의 나머지 파라미터를 freeze 시킨다. 문장의 길이가 짧거나, 중간의 경우에는 몇몇 모델에서 fine-tuning을 적용한 방법과 경쟁력 있는 성능을 달성하지만, 우리는 긴 문장의 경우에는 성능이 떨어지는 것을 보았다. 이러한 간극을 좁히기 위해, 우리는 이전의 hidden state들을 사용하여 prefix들을 조절하는 간단하지만 효율적인 접근법인 prefix-propagation을 제안한다. 우리는 50% 미만의 파라..
최근 몇년간, deep neural network 들은 computer vision task들에 대해 산업과 학계 모두에서 성공적인 모습을 보였다. 딥러닝의 대성공은 대규모 데이터를 encode하고, 모델이 가지고 있는 10억개의 파라미터들을 가동했기 때문이다. 하지만 핸드폰이나 임베디드 디바이스와 같이, 한정된 리소스를 가진 디바이스에 큰 모델을 넣는 것은 매우 어렵다. 큰 모델들은 저장 용량을 많이 요구하고, 높은 컴퓨팅 복잡도를 요구하기 때문이다. 이러다보니, 모델을 압축하고 추론을 빠르게 만드는 여러가지 기술들이 개발되었다. 모델의 압축과 가속을 표현하는 방법 중, 지식 증류는 큰 teacher model로 작은 student model을 효율적으로 학습시킨다. 이것은 커뮤니티의 이목을 집중시켰다..
BERT와 같은 사전학습 모델들은 여러가지 NLP task들에서 매우 효과적임이 입증되었다. 하지만, 모델을 학습하는 과정에는 많은 컴퓨팅 리소스들이 요구되고 이는 실제로 적용시키는 것을 방해한다. 대규모 모델 학습의 리소스 요구량을 낮추기 위해, 우리는 원본 큰 모델 (teacher)을 성능이 같은 작은 모델 (student)로 압축시키는 접근법인 Patient Knowledge Distilation을 제안한다. teacher network의 마지막 layer에서 나온 output만을 사용하는 기존의 지식 증류 방법론과는 다르게, 우리의 student 모델은 점진적인 지식을 추출하기 위해 teacher 모델의 중간 layer들을 학습한다. 우리의 방법론은 다음의 두가지 전략을 따른다. (i) PKD-L..
학습된 프롬프트 벡터들을 조정하는 방식을 통해 사전학습된 모델들을 특정 task에 맞추는 prompt tuning은 여러가지 downstream task들에 LLM을 효율적으로 맞추는 방법이 되었다. 하지만, 존재하는 방법론들은 일반적으로 소프트 프롬프트 벡터를 처음부터 학습시키고, 이러한 방법은 multitask learning 설정에서 프롬프트 벡터들을 사용했을때 task간의 풍부한 지식을 어떻게 사용하는지에 대해서는 명확하지 않다. 우리는 multitask prompt tuning (MPT)를 제안한다. 먼저 여러개의 task 별 source prompt 로부터 지식을 추출하여 전이 가능한 프롬프트를 학습시킨다. 그리고 각각의 downstream target task들에게 공유된 프롬프트를 효율적으..