Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 텍스트 관련 태그들
- 단계별로풀어보기
- 텍스트 관련
- OSAM
- 연결리스트
- C언어
- VOCALOID
- 원소 추가
- A - B
- 독학
- *Luna
- 구현
- A×B
- PyQT5
- 메일
- 학습생활
- 원소 삭제
- 알고리즘
- 백준
- 날씨
- HTML
- 취미생활
- CSS
- 프로젝트
- 과제
- 건전한
- c++
- GUI
- Python
- 건전한 취미생활
Archives
- Today
- Total
목록건전한 학습생활 - NLP (1)
언유상씨의 건전한 취미생활
RLHF : Reinforcement learning from Human Feedback란 무엇인가?
RLHF에 대해 공부하다 어려운 부분이 있어 정리를 하게 되었다. Huggingface의 원문은 다음과 같다. RLHF : Reinforcement learning from Human Feedback RLHF's 3 core steps Pretraining a language model (LM) Gathering data and training a reward model Fine-tuning the LM with RL 1. Pretraining a language model 다양한 지시에 대답할 수 있는 PLM을 구축한다. 이때, PLM을 추가적인 text나 condition들로 fine-tuning을 진행해도 되지만, 필수적이지는 않다. 2. Gathering data and training a rew..
건전한 학습생활 - NLP
2024. 1. 24. 14:55