목록전체 글 (111)
언유상씨의 건전한 취미생활
대규모 언어모델 (LLM)의 평가는 그들의 성능을 향상시키고, 잠재적인 보안 위협을 약화시키는데 중요하다. 이 논문에서, 우리는 LLM을 평가하기 위한 PromptBench를 소개한다. PromptBench는 연구자들이 용이하게 사용하고 확장할 수 있도록 프롬프트 제작, 프롬프트 엔지니어링, 데이터셋과 모델 로딩, 적대적 프롬프트 공격, 동적 평가 프로토콜, 분석 툴 등 다양한 핵심 요소들로 구성되어 있다. PromptBench는 연구 목적을 위해 개방적, 일반적, 유연한 코드베이스로 설계되었다. 이는 새로운 benchmark를 만들고, downstream 어플리케이션을 배포하며, 새로운 평가 프로토콜을 제작하는 등의 원래 연구를 촉진할 수 있다. 코드는 https://github.com/microsof..
인공지능 (AI)는 자연어처리 (NLP), 기계학습 (ML), 컴퓨터 비전 (CV) 분야에서 특히 빠른 성장을 보여왔다. 이러한 빠른 진전을 유지하는 것은 현장의 전문가들과 연구자들에게 상당한 문제이다. 이 arXiv 보고서는 2023년 1월부터 9월까지의 기간을 다루고, 이 분야의 2번째 보고서이다. 우리는 AI의 다양한 분야들을 찾아갈 수 있도록 통찰력과 분석을 제공하는 것을 목표로 한다. 우리는 이를 달성하기 위해 우리는 이것을 아카이브 내에서 기간 내 가장 많이 인용된 top-40 논문을 구분하고, 이를 이전의 보고서 (1월~6월)에 있던 top-40 논문과 비교한다. 데이터셋의 특성과 키워드 인기도를 분석한다. 지역별 기관의 분포를 검토하여 지역별 참여 차이를 드러낸다. 우리의 발견은 NLP의 ..
대규모 언어 모델 (LLM)은 많은 양의 사실적인 정보를 그들의 사전학습 가중치에 내포하고 있음을 입증하며, 이는 서로 다른 도메인간 여러 질문들에 대답하는 능력에서 나타난다. 하지만, 이러한 지식은 학습 데이터의 특성에 심하게 의존한다는 본질적인 한계가 있다. 따라서, 새로운 정보들을 통합하거나, LLM이 이전에 봤던 정보들의 성능을 정제하기 위해 외부의 데이터셋을 이용하는 것은 상당한 도전이다. 이 연구에서, 우리는 fine-tuning과 retrieval-augment generation (RAG)라는 2가지 일반적인 접근법을 비교한다. 우리는 두가지 접근법을 서로 다른 주제의 지식 집약적인 task들로 평가한다. 우리의 발견은 fine-tuning이 약간의 성능을 제공하는 대신, RAG는 학습 중..
우리는 새로운 언어 표현 모델인 BERT (Bidirectional Encoder Representations from Transformers)를 소개한다. 최근 나온 언어 표현 모델들과 다르게, BERT는 레이블링 되지 않은 텍스트로부터 양방향 표현을 깊게 사전학습 하는데 초점을 맞추고 있으며, 모든 layer에서 왼쪽과 오른쪽 문맥에 같은 조건을 부여한다. 결과적으로, 사전학습된 BERT model은 question answering, language inference와 같은 광범위한 task에서 SOTA를 달성하는 모델을 생성하기 위해 task별 아키텍쳐를 구축하지 않고 단 하나의 output layer를 추가하여 fine-tuning을 진행한다. BERT는 개념적으로 간단하고, 실험적으로 강력하다..
우리는 MiniLM에서 제안된 심층 self-attention distillation을 일반화하여, 사전학습된 Transformer의 task-agnostic 압축을 위해 self-attention relation distillation만을 사용한다. 특히, 우리는 multi-head self-attetion 관계를 self-attention 모듈 내의 query, key, value vector 쌍 간의 scaled dot-prodict으로 정의한다. 그리고 우리는 student model을 학습하기 위해 연관된 지식을 사용하였다. 이 방법의 간단함과 통합된 원칙 외에도 student의 attention head의 개수에 제한이 없다는 장점이 있다. 이는 과거의 연구들이 teacher와 student간..
지식 증류는 teacher model에서 student model로 지식을 전이시키는 문제를 다룬다. 이 과정에서, 우리는 정형적으로 teacher model에서 여러가지 종류의 데이터를 추출하게 된다. 문제는 이러한 지식을 활용하여 student model을 효과적으로 학습시키는 것이다. 우리의 예비 연구는 다음을 보여준다. student 모델을 학습시키는데 모든 지식이 필요하지 않다. 지식 증류는 훈련 단계에 따라 특정 지식으로부터 이익을 얻을 수 있다. 이것의 대한 대응으로, 우리는 지식 증류 과정에서 전이시킬 적절한 지식을 선택하는 actor-critic 접근법을 제안한다. 게다가, 우리는 연산에 부담을 낮출 수 있도록 강화된 학습 알고리즘을 제공한다. GLUE 데이터셋에서의 실험 결과는 우리의 ..
특정 downstream task에 대해 fine-tuning하기 전에 모델을 데이터가 풍부한 task에 대해 사전학습을 시키는 전이학습은 NLP에서 강력한 기술로 자리 잡았다. 전이학습의 효과성은 접근법, 방법론, 실제 사용법의 다양성을 높여주었다. 이 논문에서, 우리는 text 기반 언어 문제들을 text-to-text의 형태로 변환하는 통합된 프레임워크를 소개하는 방식을 통해 NLP의 전이학습 기술들에 대해 탐구한다. 우리의 체계적인 연구는 여러가지 NLI task들 간의 사전학습 목표, 아키텍쳐, 레이블 되지 않은 데이터셋, 전이 접근 방법, 그리고 다른 요소들을 비교한다. 우리의 탐구로부터 얻은 통찰력과 우리의 새로운 “Colossal Clean Crawled Corpus”를 합쳐 우리는 sum..
deep neural network가 강력한 모델이고 많은 task들에서 좋은 성능을 달성한 것은 사실임에도 불구하고, 그들은 스마트폰이나 내장 센서 노드들과 같은 edge device들에 배포하기에는 너무 크다. 이러한 network들을 압축하려는 노력이 있고, 인기 있는 방법론으로는 큰 (teacher) 사전학습 network를 작은 (student) network를 학습하는데 사용하는 knowledge distillation이 있다. 하지만, 우리는 이 논문에서 student와 teacher 사이의 차이가 클때 student network의 성능이 하락함을 보인다. 고정된 studnet network는 임의의 큰 teacher를 사용할 수 없다. 다르게 말하면, teacher는 student가 작기..