Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 건전한
- 과제
- 날씨
- OSAM
- 연결리스트
- A - B
- 원소 추가
- 학습생활
- 구현
- 취미생활
- *Luna
- 독학
- 텍스트 관련 태그들
- 알고리즘
- Python
- VOCALOID
- HTML
- 텍스트 관련
- A×B
- 백준
- 단계별로풀어보기
- 건전한 취미생활
- c++
- C언어
- 원소 삭제
- 메일
- GUI
- PyQT5
- 프로젝트
- CSS
Archives
- Today
- Total
목록건전한 학습생활 - NLP (1)
언유상씨의 건전한 취미생활
RLHF : Reinforcement learning from Human Feedback란 무엇인가?
RLHF에 대해 공부하다 어려운 부분이 있어 정리를 하게 되었다. Huggingface의 원문은 다음과 같다. RLHF : Reinforcement learning from Human Feedback RLHF's 3 core steps Pretraining a language model (LM) Gathering data and training a reward model Fine-tuning the LM with RL 1. Pretraining a language model 다양한 지시에 대답할 수 있는 PLM을 구축한다. 이때, PLM을 추가적인 text나 condition들로 fine-tuning을 진행해도 되지만, 필수적이지는 않다. 2. Gathering data and training a rew..
건전한 학습생활 - NLP
2024. 1. 24. 14:55