일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 취미생활
- 텍스트 관련 태그들
- A×B
- 연결리스트
- PyQT5
- 백준
- 메일
- GUI
- *Luna
- HTML
- c++
- 독학
- A - B
- 구현
- 건전한 취미생활
- 원소 삭제
- CSS
- 프로젝트
- 원소 추가
- 텍스트 관련
- 알고리즘
- 학습생활
- 단계별로풀어보기
- C언어
- OSAM
- 건전한
- 날씨
- 과제
- Python
- VOCALOID
- Today
- Total
목록건전한 학습생활 - 매일 논문 초록 읽기 (61)
언유상씨의 건전한 취미생활
대규모 언어 모델 (LLM)은 많은 양의 사실적인 정보를 그들의 사전학습 가중치에 내포하고 있음을 입증하며, 이는 서로 다른 도메인간 여러 질문들에 대답하는 능력에서 나타난다. 하지만, 이러한 지식은 학습 데이터의 특성에 심하게 의존한다는 본질적인 한계가 있다. 따라서, 새로운 정보들을 통합하거나, LLM이 이전에 봤던 정보들의 성능을 정제하기 위해 외부의 데이터셋을 이용하는 것은 상당한 도전이다. 이 연구에서, 우리는 fine-tuning과 retrieval-augment generation (RAG)라는 2가지 일반적인 접근법을 비교한다. 우리는 두가지 접근법을 서로 다른 주제의 지식 집약적인 task들로 평가한다. 우리의 발견은 fine-tuning이 약간의 성능을 제공하는 대신, RAG는 학습 중..
우리는 새로운 언어 표현 모델인 BERT (Bidirectional Encoder Representations from Transformers)를 소개한다. 최근 나온 언어 표현 모델들과 다르게, BERT는 레이블링 되지 않은 텍스트로부터 양방향 표현을 깊게 사전학습 하는데 초점을 맞추고 있으며, 모든 layer에서 왼쪽과 오른쪽 문맥에 같은 조건을 부여한다. 결과적으로, 사전학습된 BERT model은 question answering, language inference와 같은 광범위한 task에서 SOTA를 달성하는 모델을 생성하기 위해 task별 아키텍쳐를 구축하지 않고 단 하나의 output layer를 추가하여 fine-tuning을 진행한다. BERT는 개념적으로 간단하고, 실험적으로 강력하다..
우리는 MiniLM에서 제안된 심층 self-attention distillation을 일반화하여, 사전학습된 Transformer의 task-agnostic 압축을 위해 self-attention relation distillation만을 사용한다. 특히, 우리는 multi-head self-attetion 관계를 self-attention 모듈 내의 query, key, value vector 쌍 간의 scaled dot-prodict으로 정의한다. 그리고 우리는 student model을 학습하기 위해 연관된 지식을 사용하였다. 이 방법의 간단함과 통합된 원칙 외에도 student의 attention head의 개수에 제한이 없다는 장점이 있다. 이는 과거의 연구들이 teacher와 student간..
지식 증류는 teacher model에서 student model로 지식을 전이시키는 문제를 다룬다. 이 과정에서, 우리는 정형적으로 teacher model에서 여러가지 종류의 데이터를 추출하게 된다. 문제는 이러한 지식을 활용하여 student model을 효과적으로 학습시키는 것이다. 우리의 예비 연구는 다음을 보여준다. student 모델을 학습시키는데 모든 지식이 필요하지 않다. 지식 증류는 훈련 단계에 따라 특정 지식으로부터 이익을 얻을 수 있다. 이것의 대한 대응으로, 우리는 지식 증류 과정에서 전이시킬 적절한 지식을 선택하는 actor-critic 접근법을 제안한다. 게다가, 우리는 연산에 부담을 낮출 수 있도록 강화된 학습 알고리즘을 제공한다. GLUE 데이터셋에서의 실험 결과는 우리의 ..
특정 downstream task에 대해 fine-tuning하기 전에 모델을 데이터가 풍부한 task에 대해 사전학습을 시키는 전이학습은 NLP에서 강력한 기술로 자리 잡았다. 전이학습의 효과성은 접근법, 방법론, 실제 사용법의 다양성을 높여주었다. 이 논문에서, 우리는 text 기반 언어 문제들을 text-to-text의 형태로 변환하는 통합된 프레임워크를 소개하는 방식을 통해 NLP의 전이학습 기술들에 대해 탐구한다. 우리의 체계적인 연구는 여러가지 NLI task들 간의 사전학습 목표, 아키텍쳐, 레이블 되지 않은 데이터셋, 전이 접근 방법, 그리고 다른 요소들을 비교한다. 우리의 탐구로부터 얻은 통찰력과 우리의 새로운 “Colossal Clean Crawled Corpus”를 합쳐 우리는 sum..
deep neural network가 강력한 모델이고 많은 task들에서 좋은 성능을 달성한 것은 사실임에도 불구하고, 그들은 스마트폰이나 내장 센서 노드들과 같은 edge device들에 배포하기에는 너무 크다. 이러한 network들을 압축하려는 노력이 있고, 인기 있는 방법론으로는 큰 (teacher) 사전학습 network를 작은 (student) network를 학습하는데 사용하는 knowledge distillation이 있다. 하지만, 우리는 이 논문에서 student와 teacher 사이의 차이가 클때 student network의 성능이 하락함을 보인다. 고정된 studnet network는 임의의 큰 teacher를 사용할 수 없다. 다르게 말하면, teacher는 student가 작기..
현실 세계의 여러가지 상황들에서, 머신러닝 모델을 학습하는데 사용되는 데이터는 시간이 지남에 따라 제공된다. 불행하게도, 이러한 모델들은 과거에 배운것들을 잃어버리지 않으면서 새로운 개념들을 계속 배우기 위해 노력하고 있다. 이러한 현상은 catastrophic forgetting으로 알려져 있고, 이것은 여러가지 현실적인 제약들로 인해 예방하기 어렵다. 예를 들어, 저장될 수 있는 데이터의 양 또는 컴퓨팅 자원이 한정될 수 있다. 게다가, 많은 응용 프로그램들이 사전학습된 Transformer와 같은 거대한 사전학습 neural network에 의존하고 있다. 왜냐하면 모델을 처음부터 학습시킬 자원이나 데이터의 양이 많지 않기 때문이다. 이 논문에서, 우리는 사전학습된 Transformer를 사용하여 ..
NLP는 1억개의 파라미터를 가지고 있는 거대한 사전학습 모델을 사용하여 최근 큰 성공을 거두었다. 하지만, 이러한 모델들은 큰 모델 사이즈와, 높은 지연시간으로 인해 자원이 한정된 모바일 디바이스에 적용할 수 없는 등의 문제점이 있다. 이 논문에서, 우리는 유명한 BERT model을 압축하고 지연시간을 낮춘 MobileBERT를 제안한다. 원래 BERT와 같이, MobileBERT는 task-agnostic, 즉, 간단한 fine-tuning을 통해 여러 downstream NLP task들에 일반적으로 적용할 수 있다. 기본적으로, MobileBERT는 BERT-Large에 병목 구조를 추가하고 self-attention과 feed-forward network 간의 균형을 세심하게 디자인한 축소 버..