일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- VOCALOID
- HTML
- Python
- 텍스트 관련 태그들
- 취미생활
- 원소 삭제
- 연결리스트
- PyQT5
- 텍스트 관련
- C언어
- 독학
- OSAM
- c++
- GUI
- 건전한
- A - B
- 백준
- 날씨
- 구현
- 과제
- 프로젝트
- 원소 추가
- A×B
- 학습생활
- 단계별로풀어보기
- 알고리즘
- 건전한 취미생활
- *Luna
- CSS
- 메일
- Today
- Total
목록분류 전체보기 (111)
언유상씨의 건전한 취미생활
지식 증류는 일반적으로 작은 모델 (student model)이 크고 복잡한 (teacher model)의 행동을 따라하도록 훈련시킬 때 사용한다. 이러한 아이디어는 teacher model의 output probabilities를 softlabel로 사용하여 student model에데 최적화 하는 방식을 통해 지식을 압축하기 위해 사용된다. 하지만, teacher model이 매우 커지면, teacher의 내부 지식이 student에게 전이될 것이라는 보장이 없다. 만약 student가 softlabel과 매우 흡사해 지더라도, 그것의 내부 표현은 상당히 다를 수 있다. 이러한 내부적인 차이는 원래 teacher에서 student에게 전이시키려고 의도했던 일반적인 능력을 떨어트릴 수 있다. 이 논문에..
지식 증류는 모델 압축과 속도 증가에 효과적임이 증명되었다. 이는 큰 neural network의 예측을 사용하여 작은 neural network에게 지식을 전이시킨다. 하지만 이러한 방법은 파라미터와 같이 큰 neural network의 내부 지식을 무시한다. 사전 연구와 최근의 사전 교육 성공은 파라미터를 전이 시키는 것이 지식 증류에 더 효과적임을 주장한다. 이 논문에서 우리는 파라미터 생성기를 통해 큰 neural network의 파라미터의 지식들을 작은 neural network로 전이하는 Weight Distillaion을 소개한다. 기계번역 task인 WMT16 En-Ro, NIST12 Zh-En, WMT14 En-De 에서, 우리의 실험은 weight distillation으로 작은 neu..
Knowledge distillation은 동시에 학습이 진행되는 teacher, student라는 이름의 두 neural network에서 학습, 압축 전략으로 고려된다. Teacher network는 믿을만한 예측을 해야 하고, student는 teacher의 예측을 따라하기 위해 노력한다. 대게 student는 압축과 동시에 좋은 성능을 보이기 위해 가벼운 아키텍처로 선택된다. 내부 원소들에 대한 teacher의 감독으로 student가 이득을 볼 수 있지만, 이러한 설정에서는 distillation은 오직 최종 결과물에만 영향을 끼친다. 이것에 동기부여를 받아, 우리는 중간 layer들에 distillation을 하는 문제에 대해 연구했다. student와 teacher의 모든 layer를 일대일..
사전학습된 언어모델의 모든 파라미터를 사용하여 다양한 downstream task에 fine-tuning 하는 것은 불가능할 정도로 비싸다. 따라서, frozen된 사전학습 언어모델을 사용하여 몇개의 파라미터만 최적화 시키는 파라미터 효율적인 fine-tuning은 주목을 받고 있다. 이 연구에서 우리는 Transformer layer들에 삽입된 continuous prefix vector를 최적화하는 prefix tuning에 집중한다. 학습된 구문과 의미 표현들이 레이어마다 많이 달라진다는 관찰을 통해, 우리는 adaptive prefix가 하나의 레이어보다 각 레이어에 더 맞춤화 되어 있어 효율적이고 효과적으로 fine-tuning을 진행할 수 있다고 주장한다. 그러므로, 우리는 게이트 메커니즘을 ..
BERT와 같은 사전학습 언어모델은 많은 자연어처리 task에 대한 성능을 향상시켰다. 하지만, 사전학습된 언어모델들은 대체로 많은 양의 컴퓨팅 자원을 요하고, 그러므로 자원이 제한된 기기에서 사전학습 언어모델들을 효율적으로 실행시키는 것은 어렵다. 성능을 유지하면서 모델의 크기를 낮추고 추론을 빠르게 하기 위해서, 우리는 우선 Transformer기반 모델들에 knowledge distillation을 적용하기 위해 특별히 디자인된 새로운 Transformer distillation 방법론을 제시한다. 새로운 KD 방법론을 활용하면, 큰 “teacher” BERT에 인코딩 되어 있는 많은 양의 지식들을 작은 “student” Tiny-BERT에 효과적으로 전이할 수 있다. 그리고 우리는 TinyBERT..
이 연구에서, 우리는 7B ~ 70B 범위의 파라미터를 가지는 사전학습되고 파인튜닝된 LLM들의 집합인 Llama2를 개발하고 발표한다. Llama 2 - Chat이라고 불리는 파인튜닝된 LLM은 대화에 최적화 되어있다. 우리의 모델은 우리가 테스트한 대부분의 벤치마크에서 오픈 소스 채팅 모델을 보다 좋은 성능을 보인다. 또한 안전성과 유용성에 대한 인간평가는 소스를 공개하지 않는 모델의 대체제가 될 수 있음을 보인다. 우리는 커뮤니티가 우리의 작업을 기반으로 제작하고, LLM의 책임 있는 개발에 기여할 수 있도록 Llama 2 - Chat의 안전성을 높이는 방법과 파인튜닝에 대한 구체적인 접근법을 제공한다. 제목 : Llama 2: Open Foundation and Fine-Tuned Chat Mod..
LLM은 real world 데이터로부터 자연어 생성 능력 뿐만 아니라 여러 그룹 간의 사회적 편향도 학습한다. 이것은 LLM을 기반으로 한 어플리케이션들을 배포하는데 치명적인 위험을 초래한다. 기존의 연구들과 자원들은 언어와 문화의 차이 때문에 한국에서 쉽게 적용할 수 없다. 두가지 요소는 특정 그룹과 편향에 큰 영향을 미친다. 이러한 한계는 LLM을 효과적이고 안전하게 배포하기 위해 현지화된 사회적 편향 데이터셋을 요구한다. 이를 위해, 우리는 15개의 카테고리에서 72개의 인구통계학적 그룹을 포함하는 34K 쌍의 한국어 문장으로 구성된 새로운 사회적 편향 데이터 셋인 KOSBI를 제시한다. 우리는 필터 기반 제거를 통해 HyperCLOVA (30B, 82B), GPT-3에서 평균 16.47%p의 사..
우리는 chain of thought(일련의 중간 추론 과정들)을 생성하는 것이 LLM이 복잡한 추론을 하는 능력을 크게 향상시키는 방법을 탐구한다. 특히 충분한 크기의 LLM에서 chain of thought 이라는 간단한 방법을 통해 이러한 추론 능력이 자연스럽게 나타나는 것을 보인다. 3개의 LLM에서 진행한 실험은 chain of thought 프롬프팅이 산수, 상식, 상징적 추론 task에서 성능이 향상됨을 보인다. 경험적인 이득은 매우 크다. 예를 들어, PaLM 540B에 8개의 chain of thought 예시를 적용한 것만으로 수학 단어 문제 벤치마크인 GSM8K에서 파인튜닝된 GPT-3를 넘긴 성능을 보이며 SOTA를 달성하였다. 제목 : Chain-of-Thought Promptin..