
DPO vs. RLHF vs. Reinforcement Learning (RL) 비교분석
·
AI Paper Review/Reinforcement Learning
RL stepagent 가 정책을 학습하는 과정으로써, reward signal을 최대화하는 방식으로 “유도”해서 학습하는 방식임SFT와 엄연히 구분을 해야 한다!RLHF step첫 번째로, 높은 퀄리티의 human labeled data를 통해 기존의 pretrained model의 supervised fine tuning 진행이후 개별적인 reward model을 학습 (pairwise human preference data 이용)Policy Optimization: RL 알고리즘 사용을 통해, reward model을 통해 reward를 측정하고, policy를 지키면서 model은 human preference에 상응하는 reward를 최대화하는 결과를 위해 계속적으로 학습해 나간다.DPO ste..