일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 취미생활
- C언어
- 메일
- 텍스트 관련
- 독학
- 구현
- A - B
- VOCALOID
- 건전한
- PyQT5
- 텍스트 관련 태그들
- CSS
- c++
- GUI
- Python
- 원소 추가
- 원소 삭제
- 건전한 취미생활
- OSAM
- 연결리스트
- 알고리즘
- 백준
- A×B
- HTML
- *Luna
- 단계별로풀어보기
- 과제
- 학습생활
- 프로젝트
- 날씨
- Today
- Total
목록건전한 학습생활 - 매일 논문 초록 읽기 (61)
언유상씨의 건전한 취미생활
PLM이 10억개 이상의 파라미터를 가질 때, 사전학습된 언어모델을 freeze 시키고 추가적인 soft prompt의 약간의 parameter만을 fine-tuning 하는 프롬프트 튜닝은 모든 파라미터를 fine-tuning 하는 것과 비슷한 성능을 보이지만, 작은 크기의 PLM에서는 여전히 잘 적용되지 않는다. 그러므로, 최근 프롬프트 튜닝을 개선하기 위해 비슷한 task로 학습된 prompt를 사용하여 target prompt를 초기화하는 프롬프트 전이 (PoT)가 제안되었다. 하지만, vanilla PoT와 같은 접근법은 이러한 문제들 때문에 대체로 최적의 성능을 달성하지 못한다. 1. PoT는 source-target 쌍의 유사도에 민감하다. 2. target task에 대한 source pr..
Multi-task learning (MTL)은 관계가 있는 task들의 공통점과 차이점을 사용하여 해당 task들의 성능을 향상시키기 때문에 NLP분야에서 유명해지고 있다. 그러나, task의 관련성에 기반한 multi-task learning이 어떻게 구현 가능한지에 대해서는 명확하게 이해되지 않았다. 이 조사에서 우리는 최근 NLP 분야에서 발전된 multi-task learning들을 리뷰하여 task의 관련성에 기반한 2가지 일반적인 multi-task training 방법론을 요약하는 것을 목적으로 한다. (1. joint training, 2. multi-step training) 우리는 여러가지 NLP downstream에 적용한 예시를 제시하고, task의 관계들에 대해 요약하고 이러한 ..
이 논문에서, 우리는 Multiple NLU task들 간의 표현을 학습하는 Multi-Task Deep Neural Network (MT-DNN)를 소개한다. MT-DNN은 많은 양의 task간 데이터를 활용할 뿐만 아니라, 새로운 task와 damain에 적용할 때 도움이 되는 일반적인 표현을 이끌어 내는 정규화된 효과의 이득을 본다. MT-DNN은 기존에 제안된 모델을 확장하여 BERT라고 알려진 사전학습 양방향 트랜스포머 언어모델을 통합한다. MT-DNN은 SNLI, SciTail과 9개의 GLUE task 중 8개의 task까지 총 10개의 NLU task에서 SOTA를 달성하였다. (GLUE 벤치마크의 경우 82.7%를 달성, 2.2% 증가) 우리는 또한 SNLI과 SciTail 데이터셋을 통..
fine-tuning은 거대한 사전학습 언어모델들을 downstream tasks들에서 성능을 발휘할 수 있도록 하는 현실적인 방법이다. 하지만 이것은 언어모델의 모든 파라미터를 조정해야 하므로, 각 task 별로 전체 복사본을 저장해둘 수 있는 공간이 필요하다. 이 논문에서 언어모델의 파라미터를 고정시키지만 작은 continuous task-specific vector를 최적화 하는, NLG task를 위한 fine-tuning의 가벼운 대안인 prefix-tuning을 제안한다. Prefix-tuning은 prompting에서 영감을 받아, 이후의 token들이 prefix에 대해 virtual token인 것 처럼 주의를 기울일 수 있다. 우리는 prefix-tuning을 GPT-2의 table-t..
우리는 학습 과정에서 teacher model이 고정되어 있는 전통적인 지식 증류 방법론의 효과적이고 간단한 대안인 Meta learning을 추가한 지식 증류 (MetaDistil)을 제안한다. 우리는 meta learning framework에서 student network의 성능에 대한 feedback을 통해 teacher network를 student network에 지식을 더 잘 전이시킬 수 있도록 학습시킬 수 있음을 보였다. 게다가, 우리는 inner-learner의 향상에 집중한 meta learning 알고리즘에서 inner-learner와 meta-learner 간의 일치를 향상시키는 pilot update mechanism을 소개한다. 여러 benchmark에서의 실험들은 MetaDis..
좋은 성능을 가진 teacher model이 반드시 강력한 student를 만들어내지 않는다는 것이 흔하게 관찰된다. 이는 현재 teacher의 학습 방법과 효율적인 지식 전이 간의 불일치를 강조한다. teahcer의 학습 과정을 향상시키기 위해, 우리는 student의 일반적인 능력에 대한 각 training sample의 distillation의 영향을 결정하기 위해 distillation influence의 개념을 소개한다. 이 논문에서, 우리는 teacher의 학습 과정에서 distillation influence를 통합하는 효율적인 학습 방법인 Learning Good Teacher Matters (LGTM)을 제안한다. student의 일반적인 능력을 향상시킬 가능성이 높은 샘플들을 우선시함으..
지식 증류는 일반적으로 작은 모델 (student model)이 크고 복잡한 (teacher model)의 행동을 따라하도록 훈련시킬 때 사용한다. 이러한 아이디어는 teacher model의 output probabilities를 softlabel로 사용하여 student model에데 최적화 하는 방식을 통해 지식을 압축하기 위해 사용된다. 하지만, teacher model이 매우 커지면, teacher의 내부 지식이 student에게 전이될 것이라는 보장이 없다. 만약 student가 softlabel과 매우 흡사해 지더라도, 그것의 내부 표현은 상당히 다를 수 있다. 이러한 내부적인 차이는 원래 teacher에서 student에게 전이시키려고 의도했던 일반적인 능력을 떨어트릴 수 있다. 이 논문에..
지식 증류는 모델 압축과 속도 증가에 효과적임이 증명되었다. 이는 큰 neural network의 예측을 사용하여 작은 neural network에게 지식을 전이시킨다. 하지만 이러한 방법은 파라미터와 같이 큰 neural network의 내부 지식을 무시한다. 사전 연구와 최근의 사전 교육 성공은 파라미터를 전이 시키는 것이 지식 증류에 더 효과적임을 주장한다. 이 논문에서 우리는 파라미터 생성기를 통해 큰 neural network의 파라미터의 지식들을 작은 neural network로 전이하는 Weight Distillaion을 소개한다. 기계번역 task인 WMT16 En-Ro, NIST12 Zh-En, WMT14 En-De 에서, 우리의 실험은 weight distillation으로 작은 neu..