언유상씨의 건전한 취미생활

[매일 논문 초록 읽기 : 42일차] Transformer 기반 LLM의 시간, 메모리 문제를 완화시킨 새로운 아키텍쳐 Zebra 본문

건전한 학습생활 - 매일 논문 초록 읽기

[매일 논문 초록 읽기 : 42일차] Transformer 기반 LLM의 시간, 메모리 문제를 완화시킨 새로운 아키텍쳐 Zebra

언유상 2023. 12. 22. 18:39

 이 논문은 깊은 이해와 많은 양의 정보 합성을 요구하는 응용 분야에서 중요한 부분인 방대한 텍스트 sequence 이해와 처리에 대한 LLM의 성능을 향상시키는 새로운 접근법을 소개한다.

 

 우선 Transformer 아키텍쳐를 기반으로 구축된 LLM의 확장된 context window의 내재적인 문제점을 인지하고, 우리는 Zebra라는 새로운 모델 아키텍쳐를 제안한다. 이 아키텍쳐는 Transformer에서 그룹화 된 local - global attention layer들을 사용하여 full attention과 연관있는 2차 시간 문제와 메모리 복잡도 문제를 더 효율적으로 관리한다. 우리의 모델은 얼룩말의 교차되는 줄무니와 비슷하게, local - global attention layer의 균형을 맞추면서 연산 요구량과 메모리 소모를 상당히 감소시킨다.

 

 사전학습, 반복적인 긴 문맥 적응 훈련, 긴 instruction tuning을 포함한 종합적인 실험을 통해 Zebra의 성능을 평가한다. 결과는 Zebra가 학습을 향상시키고 추론을 효율적으로 진행하면서 short, long sequnce benchmark에서 대등하거나 높은 성능을 달성함을 보였다.

 

제목 : Zebra: Extending Context Window with Layerwise Grouped Local-Global Attention

https://arxiv.org/abs/2312.08618

Comments