일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 단계별로풀어보기
- 백준
- 과제
- *Luna
- 원소 추가
- OSAM
- 건전한
- 알고리즘
- C언어
- c++
- HTML
- 프로젝트
- VOCALOID
- 독학
- 학습생활
- Python
- GUI
- A×B
- 구현
- 건전한 취미생활
- 원소 삭제
- CSS
- 텍스트 관련 태그들
- 날씨
- 연결리스트
- PyQT5
- 텍스트 관련
- 메일
- 취미생활
- A - B
- Today
- Total
목록건전한 학습생활 - 매일 논문 초록 읽기 (61)
언유상씨의 건전한 취미생활
Knowledge distillation은 동시에 학습이 진행되는 teacher, student라는 이름의 두 neural network에서 학습, 압축 전략으로 고려된다. Teacher network는 믿을만한 예측을 해야 하고, student는 teacher의 예측을 따라하기 위해 노력한다. 대게 student는 압축과 동시에 좋은 성능을 보이기 위해 가벼운 아키텍처로 선택된다. 내부 원소들에 대한 teacher의 감독으로 student가 이득을 볼 수 있지만, 이러한 설정에서는 distillation은 오직 최종 결과물에만 영향을 끼친다. 이것에 동기부여를 받아, 우리는 중간 layer들에 distillation을 하는 문제에 대해 연구했다. student와 teacher의 모든 layer를 일대일..
사전학습된 언어모델의 모든 파라미터를 사용하여 다양한 downstream task에 fine-tuning 하는 것은 불가능할 정도로 비싸다. 따라서, frozen된 사전학습 언어모델을 사용하여 몇개의 파라미터만 최적화 시키는 파라미터 효율적인 fine-tuning은 주목을 받고 있다. 이 연구에서 우리는 Transformer layer들에 삽입된 continuous prefix vector를 최적화하는 prefix tuning에 집중한다. 학습된 구문과 의미 표현들이 레이어마다 많이 달라진다는 관찰을 통해, 우리는 adaptive prefix가 하나의 레이어보다 각 레이어에 더 맞춤화 되어 있어 효율적이고 효과적으로 fine-tuning을 진행할 수 있다고 주장한다. 그러므로, 우리는 게이트 메커니즘을 ..
BERT와 같은 사전학습 언어모델은 많은 자연어처리 task에 대한 성능을 향상시켰다. 하지만, 사전학습된 언어모델들은 대체로 많은 양의 컴퓨팅 자원을 요하고, 그러므로 자원이 제한된 기기에서 사전학습 언어모델들을 효율적으로 실행시키는 것은 어렵다. 성능을 유지하면서 모델의 크기를 낮추고 추론을 빠르게 하기 위해서, 우리는 우선 Transformer기반 모델들에 knowledge distillation을 적용하기 위해 특별히 디자인된 새로운 Transformer distillation 방법론을 제시한다. 새로운 KD 방법론을 활용하면, 큰 “teacher” BERT에 인코딩 되어 있는 많은 양의 지식들을 작은 “student” Tiny-BERT에 효과적으로 전이할 수 있다. 그리고 우리는 TinyBERT..
이 연구에서, 우리는 7B ~ 70B 범위의 파라미터를 가지는 사전학습되고 파인튜닝된 LLM들의 집합인 Llama2를 개발하고 발표한다. Llama 2 - Chat이라고 불리는 파인튜닝된 LLM은 대화에 최적화 되어있다. 우리의 모델은 우리가 테스트한 대부분의 벤치마크에서 오픈 소스 채팅 모델을 보다 좋은 성능을 보인다. 또한 안전성과 유용성에 대한 인간평가는 소스를 공개하지 않는 모델의 대체제가 될 수 있음을 보인다. 우리는 커뮤니티가 우리의 작업을 기반으로 제작하고, LLM의 책임 있는 개발에 기여할 수 있도록 Llama 2 - Chat의 안전성을 높이는 방법과 파인튜닝에 대한 구체적인 접근법을 제공한다. 제목 : Llama 2: Open Foundation and Fine-Tuned Chat Mod..
LLM은 real world 데이터로부터 자연어 생성 능력 뿐만 아니라 여러 그룹 간의 사회적 편향도 학습한다. 이것은 LLM을 기반으로 한 어플리케이션들을 배포하는데 치명적인 위험을 초래한다. 기존의 연구들과 자원들은 언어와 문화의 차이 때문에 한국에서 쉽게 적용할 수 없다. 두가지 요소는 특정 그룹과 편향에 큰 영향을 미친다. 이러한 한계는 LLM을 효과적이고 안전하게 배포하기 위해 현지화된 사회적 편향 데이터셋을 요구한다. 이를 위해, 우리는 15개의 카테고리에서 72개의 인구통계학적 그룹을 포함하는 34K 쌍의 한국어 문장으로 구성된 새로운 사회적 편향 데이터 셋인 KOSBI를 제시한다. 우리는 필터 기반 제거를 통해 HyperCLOVA (30B, 82B), GPT-3에서 평균 16.47%p의 사..
우리는 chain of thought(일련의 중간 추론 과정들)을 생성하는 것이 LLM이 복잡한 추론을 하는 능력을 크게 향상시키는 방법을 탐구한다. 특히 충분한 크기의 LLM에서 chain of thought 이라는 간단한 방법을 통해 이러한 추론 능력이 자연스럽게 나타나는 것을 보인다. 3개의 LLM에서 진행한 실험은 chain of thought 프롬프팅이 산수, 상식, 상징적 추론 task에서 성능이 향상됨을 보인다. 경험적인 이득은 매우 크다. 예를 들어, PaLM 540B에 8개의 chain of thought 예시를 적용한 것만으로 수학 단어 문제 벤치마크인 GSM8K에서 파인튜닝된 GPT-3를 넘긴 성능을 보이며 SOTA를 달성하였다. 제목 : Chain-of-Thought Promptin..
자연어 지시의 조건에 따라, LLM은 일반적인 목적의 컴퓨터로서 인상적인 능력들을 보여왔다. 하지만, task의 성능은 모델을 조종하는데 사용되는 프롬프트의 질에 매우 크게 의존하고, 대부분의 효율적인 프롬프트는 사람에 의해 수제작 되었다. 고전적인 프로그램 합성과 프롬프트 엔지니어링에 대한 사람의 접근에 영감을 받아, 우리는 지시문의 생성과 선택을 자동으로 해주는 Automatic Prompt Engineer (APE)를 제안한다. 우리의 방법론에서, 우리는 지시문을 program 처럼 다룬다. score function이 최고 점수를 내게 하기 위해 LLM이 제안한 지시문의 후보들 중에서 최적화 한다. 선택된 지시문의 질을 평가하기 위해, 우리는 다른 LLM에 선택된 지시문을 사용하여 zero-sho..
최근의 연구는 많은 양의 텍스트 코퍼스로 사전학습을 진행하고, 특정한 task에 대해 파인튜닝 하는것이 많은 NLP task와 벤치마크에 대하여 많은 이점을 보인다는 것을 입증하였다. 하지만 일반적으로 task에 구애받지 않는 구조에서도 구체적인 task에 대해 파인튜닝하기 위해 1000~10000개의 예제로 구성된 데이터 셋을 요구한다. 반면에, 사람들은 약간의 예제와 간단한 지시만으로 새로운 언어 task에서 성능을 낼 수 있다. 이것은 최근의 NLP 시스템들이 매우 어려움을 겪고 있는 부분이다. 우리는 크기를 키운 언어 모델이 task에 구애받지 않고, few-shot으로도 성능이 크게 향상되며, 때때로 파인튜닝으로 학습된 과거의 SOTA와 비교할 수 있는 정도의 성능을 달성할 수 있다는 것을 보여..