'건전한 학습생활 - NLP' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록건전한 학습생활 - NLP (1)

언유상씨의 건전한 취미생활

RLHF : Reinforcement learning from Human Feedback란 무엇인가?

RLHF에 대해 공부하다 어려운 부분이 있어 정리를 하게 되었다. Huggingface의 원문은 다음과 같다. RLHF : Reinforcement learning from Human Feedback RLHF's 3 core steps Pretraining a language model (LM) Gathering data and training a reward model Fine-tuning the LM with RL 1. Pretraining a language model 다양한 지시에 대답할 수 있는 PLM을 구축한다. 이때, PLM을 추가적인 text나 condition들로 fine-tuning을 진행해도 되지만, 필수적이지는 않다. 2. Gathering data and training a rew..

건전한 학습생활 - NLP 2024. 1. 24. 14:55

Prev 1 Next

목록건전한 학습생활 - NLP (1)

언유상씨의 건전한 취미생활

티스토리툴바