언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 33일차] text 기반 언어 문제를 text-to-text로 변환하는 프레임워크인 T5 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 33일차] text 기반 언어 문제를 text-to-text로 변환하는 프레임워크인 T5

언유상 2023. 12. 13. 14:40

특정 downstream task에 대해 fine-tuning하기 전에 모델을 데이터가 풍부한 task에 대해 사전학습을 시키는 전이학습은 NLP에서 강력한 기술로 자리 잡았다. 전이학습의 효과성은 접근법, 방법론, 실제 사용법의 다양성을 높여주었다.

 

이 논문에서, 우리는 text 기반 언어 문제들을 text-to-text의 형태로 변환하는 통합된 프레임워크를 소개하는 방식을 통해 NLP의 전이학습 기술들에 대해 탐구한다. 우리의 체계적인 연구는 여러가지 NLI task들 간의 사전학습 목표, 아키텍쳐, 레이블 되지 않은 데이터셋, 전이 접근 방법, 그리고 다른 요소들을 비교한다.

 

우리의 탐구로부터 얻은 통찰력과 우리의 새로운 “Colossal Clean Crawled Corpus”를 합쳐 우리는 summarization, question answering, text classification 외의 여러 benchmark들에서 SOTA를 달성하였다. 미래의 연구들이 NLP에서의 전이 학습을 용이하게 하기 위해, 우리는 우리의 데이터셋과 사전학습 모델, 코드를 공개한다.

 

제목 : Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

https://arxiv.org/abs/1910.10683

Comments