Notice
Recent Posts
Recent Comments
Link
목록건전한 학습생활 - NLP (1)
언유상씨의 건전한 취미생활
RLHF : Reinforcement learning from Human Feedback란 무엇인가?
RLHF에 대해 공부하다 어려운 부분이 있어 정리를 하게 되었다. Huggingface의 원문은 다음과 같다. RLHF : Reinforcement learning from Human Feedback RLHF's 3 core steps Pretraining a language model (LM) Gathering data and training a reward model Fine-tuning the LM with RL 1. Pretraining a language model 다양한 지시에 대답할 수 있는 PLM을 구축한다. 이때, PLM을 추가적인 text나 condition들로 fine-tuning을 진행해도 되지만, 필수적이지는 않다. 2. Gathering data and training a rew..
건전한 학습생활 - NLP
2024. 1. 24. 14:55