목록전체 글 (111)
언유상씨의 건전한 취미생활
대규모 사전 훈련된 언어 모델은 매개변수에 사실적 지식을 저장할 수 있으며, downstream NLP task들에 대해 fine-tuned 할 때 SOTA를 달성함을 보였다. 그러나, 지식에 접근하고 정확하게 조작하는 능력은 여전히 제한적이며, 따라서 지식 집약적인 작업에서는 task-specific한 아키텍처에 비해 성능이 뒤처진다. 또한, 결정에 대한 출처를 제공하고 지식을 업데이트하는 것은 해결되지 않은 연구 문제이다. non-parametric memory에 대한 차별화 가능한 접근 메커니즘을 갖춘 사전 훈련된 모델은 지금까지 추출적 downstream task들에 대해서만 조사되었다. 우리는 검색-증강 생성(RAG)을 위한 일반적인 목적의 미세 조정 레시피를 탐구한다. RAG는 언어 생성을 위..
RLHF에 대해 공부하다 어려운 부분이 있어 정리를 하게 되었다. Huggingface의 원문은 다음과 같다. RLHF : Reinforcement learning from Human Feedback RLHF's 3 core steps Pretraining a language model (LM) Gathering data and training a reward model Fine-tuning the LM with RL 1. Pretraining a language model 다양한 지시에 대답할 수 있는 PLM을 구축한다. 이때, PLM을 추가적인 text나 condition들로 fine-tuning을 진행해도 되지만, 필수적이지는 않다. 2. Gathering data and training a rew..
대규모 언어모델을 인간의 가치에 정렬하는 것은 LLM의 정교하게 조율할 수 있는 방법으로 매우 중요하게 되었다. 하지만, 이것은 상당한 인간의 시연과 피드백 또는 ChatGPT와 같은 독점적인 LLM으로부터의 정제를 요구한다. 이 논문에서, 우리는 많은 양의 인간 주석과 독점적인 LLM에 의존하지 않는 합성 피드백을 사용한 새로운 정렬 학습 프레임워크를 제안한다. 먼저, 우리는 여러가지 프롬프트를 여러가지 크기의 Vanilla LLM에 넣어 나온 결과를 비교해 생성된 합성 피드백으로 Reward Modeling을 수행한다. 그리고, 우리는 RM을 사용하여 고품질의 시연을 모방하여 감독 정책을 훈련하고, 강화학습으로 모델을 최적화한다. 우리의 최종 모델인 Aligned Language Model with ..
최근 언어모델이 input으로 긴 문맥을 입력받을 수 있는 능력을 가짐에도 불구하고, 언어모델이 더 긴 문맥을 얼마나 잘 활용하는지에 대해서는 상대적으로 잘 알려져 있지 않다. 우리는 입력된 문맥과 관련된 정보를 식별하는 능력을 요하는 2가지 task (multi-document question answering, key-value retrieval)를 통해 언어모델의 성능을 분석한다. 우리는 관련된 정보의 위치가 변경될 때 성능이 많이 떨어짐을 발견했다. 이는 현재의 언어모델들이 입력 받은 긴 문맥의 정보를 견고하게 활용하지 못함을 보인다. 특히, 우리는 관련된 내용이 입력된 문맥의 맨 앞 또는 맨 뒤에 존재할 때 성능이 종종 매우 높게 나오는 것을 발견하였고, 긴 문맥의 중간에 있을 때 성능이 상당히..
End-to-end task-oriented dialogue (EToD)는 end-to-end 구조에서 모듈별 학습 없이 대답을 바로 생성할 수 있고, 이로 인해 인기가 높아졌다. 심층 신경망의 발전, 특히 대규모 사전학습 모델의 성공적인 사용으로 인해, 최근 몇년 간 EToD의 연구에서 상당한 진보가 이루어졌다. 이 논문에서, 우리는 철저한 검토를 제공하고, 최신 트랜드와 기존 접근법들을 요약하여 EToD 연구의 발전을 촉진하는 통합된 관점을 제공한다. 이 논문의 기여는 다음과 같이 요약할 수 있다. 1. First survey : 우리가 알기로, 이 연구 분야에서 첫번째로 철저한 조사를 진행하였다. 2. New taxonomy : 우리는 먼저 EToD에 대해 Modularly EToD와 Fully E..
최근 대규모 언어모델 (LLM)의 발전은 챗봇 개발에 새로운 길을 열였다. 기존의 연구들은 사람의 input에 대해 무엇을 답변할지를 결정하는 single-user 챗봇에 중점을 두었다. 이 논문에서, 우리는 더 복잡한 3W 디자인 차원 (무엇을 말할지 - What, 언제 대답을 할지 - When, 누구에게 답변할지 - Who)을 가진 multi-user 챗봇들을 소개한다. 그리고, 우리는 그룹 토론을 위해 특별하게 설계된 챗봇을 위한 LLM 기반 framework인 Multi-User Chat Assistant (MUCA)를 제안한다. MUCA는 Sub-topic Generator, Dialog Analyzer, Utterance Strategies Arbitrator의 세가지 메인 모듈로 구성되어 있..
대규모 언어모델 (LLM)에 기반한 에이전트들의 협력을 통한 자동 문제 해결 분야에서 눈에 띄는 발전이 있었다. 현존하는 LLM 기반의 다중 에이전트 시스템은 이미 간단한 대화 task들을 해결할 수 있다. 하지만, 더 복잡한 task들의 정답은 LLM들을 단순하게 연결할 때 발생되는 연쇄적인 할루시네이션으로 인해 논리적으로 모순이 발생하고, 이로 인해 복잡해진다. 우리는 인간의 효과적인 workflow를 LLM 기반의 다중 에이전트 협업에 통합시킨 혁신적인 meta-programming 프레임워크인 MetaGPT를 소개한다. MetaGPT는 더 간소한 워크플로우를 위해 프롬프트 시퀀스에 표준운영절차 (SOPs)를 인코딩하고, 에이전트들이 사람과 같은 도메인 전문가가 되도록 하여 에러를 줄이고 중간 결과..
최근 일어난 대규모 언어모델 (LLM)의 발전은 연구자들과 개발자들이 자연어 인터페이스를 사용하여 자동적으로 여러가지 task를 해결하고, 환경, 사람, 다른 에이전트와 상호작용할 수 있는 자동적인 언어 에이전트를 만들어낼 수 있게 했다. 우리는 언어 에이전트를 인공 일반 지능으로 향하는 유망한 방향으로 고려하고, 이러한 발전을 더 넓은 비 전문가 대중들에게 개방하고자 AGENTS라는 오픈 소스 라이브러리를 공개한다. AGENTS는 계획, 기억, 도구 사용, 다중 에이전트 상호작용, 세밀한 기호 제어를 포함한 중요한 기능들을 지원할 수 있도록 세심하게 설계되었다. AGENTS는 비 전문가들이 많은 양의 코딩을 하지 않고, 언어 에이전트를 제작하고, 커스터마이징하고, 시험하고, 조정하고, 배포할 수 있도록..