목록전체 글 (111)
언유상씨의 건전한 취미생활
자연어처리 (NLP)의 발전은 Transformer 기반의 대규모 언어모델 (LLM)의 발전으로 매우 가속화 되었다. 이 모델들은 특히 code generation 분야에서 NLP task를 혁신적으로 변화시켜, 개발자들이 소프트웨어를 제작할 때 보다 효율적으로 작업할 수 있도록 도움을 주었다. 이러한 발전에도 불구하고, 효과적인 test case 생성 및 실행과 code snippet 생성을 균형있게 맞추는 것에 대한 도전은 여전히 존재한다. 이러한 문제들을 해결하기 위해, 이 논문은 특화된 agent들로 구성된 multi-agent 프레임워크를 사용한 새로운 해결 방법인 Multi-Agent Assistant Code Generation (AgentCoder)를 소개한다. 특화된 agent들은 각각 ..
대규모 언어모델 (LLM)을 사용한 Text-to-SQL 방법론의 발전은 눈에 띄는 성능을 보였다. 그럼에도 불구하고, 이러한 접근법들은 데이터베이스가 확장되거나, user의 쿼리가 뒤얽히거나, SQL의 결과값이 잘못된 상황을 다루는데 있어 어려움을 계속 마주하고 있다. 이러한 문제점을 해결하기 위해서, 우리는 LLM을 기반으로 한 다중 에이전트 협력 Text-to-SQL 프레임워크인 MAC-SQL을 제안한다. 이 프레임워크는 세명의 agent로 구성되어 있다. 1. Selector : 방대한 데이터베이스들을 압축하고 유저의 질문에 대해 연관성 있는 테이블을 보존한다. 2. Decomposer : 유저의 질문을 보다 직관적인 세부 질문들로 분해하고, 그것을 절차대로 해결해 나간다. 3. Refiner :..
인간 피드백 기반 강화학습 (RLHF)와 같이 자주 사용되는 정렬 기술은 모델의 행동을 지도하는데 인간의 능력에 의존한다. 예를 들면, 모델이 안전한 결과물을 생성하는지, 모델이 지시문을 잘 다라오는지를 평가하는 것이다. 하지만, 초인간모델들은 인간이 평가를 진행하기 어려운 복잡한 방식으로 행동할 것이므로 사람들은 오직 초인간 모델들에 대해 weakly supervise만 가능할 것이다. 우리는 이러한 문제를 연구하였다. : 약한 감독 모델로 지도하여, 강력한 모델의 모든 능력을 이끌어 낼 수 있는가? 우리는 GPT-4 시리즈와 같은 여러가지 사전학습 언어모델을 NLP, 체스, 보상 모델링 task에 대해 테스트 했다. 그 결과 강력한 사전학습 모델들을 weak model이 생성한 label들에 대해 f..
이 보고서는 새로운 multimodal model들의 집합인 Gemini를 소개한다. 이는 이미지, 오디오, 비디오, 텍스트를 이해하는데 뛰어난 능력을 가지고 있다. Gemini는 Ultra, Pro, Nano 사이즈로 구성되어 있으며, 복잡한 추론 task부터 디바이스 상에서 제한된 메모리를 가지고 작동하는 경우까지 여러가지 상황에 적용하는데 용이하게 되어있다. 광범위한 benchmark들에서 진행한 평가에서 가장 좋은 성적을 달성한 Gemini Ultra model은, 32개의 benchmark 중 30개의 benchmark에서 SOTA를 달성함을 보였다. 또한, 이는 잘 연구된 시험 benchmark인 MMLU에서 인간 전문가의 성능을 달성한 첫번째 모델이고 우리가 실험한 20개의 multimoda..
거의 대부분의 ML 알고리즘의 성능을 향상시키는 가장 간단한 방법은 같은 데이터에 대해 여러가지 모델을 사용하여 학습을 진행하고, 그들의 예측값에 대한 평균을 내는 것이다. 불행하게도, 모든 모델들의 앙상블을 사용하여 예측을 진행하는 것은 번거롭고, 많은 연산을 요구하므로 많은 사용자에게 배포하기 어려울 수 있다. 특히 각각의 모델이 매우 큰 신경망일 경우 더욱 그렇다. Caruana와 collaborator들은 보다 배포하기 쉽도록, 앙상블 된 모델의 지식을 하나의 모델로 압축하는 것이 가능함을 보여왔고, 우리는 다른 압축 기술을 사용하여 이 접근법을 보다 발전시켰다. 우리는 MNIST에서 놀라운 결과를 달성하였고, 상당한 향상이 있음을 보였고, 앙상블 모델의 지식을 하나의 모델로 추출하여 대규모 시스..
이 논문은 깊은 이해와 많은 양의 정보 합성을 요구하는 응용 분야에서 중요한 부분인 방대한 텍스트 sequence 이해와 처리에 대한 LLM의 성능을 향상시키는 새로운 접근법을 소개한다. 우선 Transformer 아키텍쳐를 기반으로 구축된 LLM의 확장된 context window의 내재적인 문제점을 인지하고, 우리는 Zebra라는 새로운 모델 아키텍쳐를 제안한다. 이 아키텍쳐는 Transformer에서 그룹화 된 local - global attention layer들을 사용하여 full attention과 연관있는 2차 시간 문제와 메모리 복잡도 문제를 더 효율적으로 관리한다. 우리의 모델은 얼룩말의 교차되는 줄무니와 비슷하게, local - global attention layer의 균형을 맞추면..
대규모 언어 모델(LLM)은 여러 언어 task들에서 일반적으로 좋은 성능을 보이지만, 할루시네이션과 해석력이 낮다는 문제점이 있다. 이로 인해 ground-truth 없이 모델의 정확도를 평가하기 어렵다. Retrieval-Augmented Generation (RAG) 모델들은 할루시네이션을 줄이고, 대답을 어떻게 생성하였는지를 제공하기 위해 제안되었다. 과학 문헌에 이러한 모델을 적용하는 것은 과학 지식의 대규모, 체계적 처리가 가능해질 수 있을 것이다. 우리는 과학 문헌을 통해 질문에 대답을 해주는 RAG agent인 PaperQA를 제안한다. PaperQA는 full-text 과학 기사들로부터 정보 검색을 수행하며, 출처와 문단의 관련성을 평가한 뒤, RAG를 사용하여 정답을 제공하는 agent..
많은 양의 코드가 포함된 corpus로 학습된 대규모 언어모델 (LLM)은 HTML 코드를 이해할 수 있는 눈에 띄는 능력을 가지고 있다. 웹 인터페이스는 주로 HTML을 사용하여 구성하였으므로, 우리는 LLM이 유저가 준 query를 사용하여 웹 인터페이스상의 중요한 요소들을 검색하고 찾는 방법에 대한 깊은 연구를 설계한다. 자율적인 웹 탐색에 집중했던 이전 연구들과 대조적으로, 우리는 원자 단위까지 문제를 분해하였다. LLM은 유저가 준 query를 이용하여 웹 페이지의 중요한 정보들을 식별할 수 있는가? - 이러한 분해는 LLM들의 능력과 그들에게 존재하는 알려지지 않은 기회들과 도전들을 보다 세세하게 조사할 수 있도록 한다. 우리의 실험은 LLM은 중요한 UI 요소들을 검색하는 합리적인 성능의 능..