DPO vs. RLHF vs. Reinforcement Learning (RL) 비교분석
·
AI Paper Review/Reinforcement Learning
RL stepagent 가 정책을 학습하는 과정으로써, reward signal을 최대화하는 방식으로 “유도”해서 학습하는 방식임SFT와 엄연히 구분을 해야 한다!RLHF step첫 번째로, 높은 퀄리티의 human labeled data를 통해 기존의 pretrained model의 supervised fine tuning 진행이후 개별적인 reward model을 학습 (pairwise human preference data 이용)Policy Optimization: RL 알고리즘 사용을 통해, reward model을 통해 reward를 측정하고, policy를 지키면서 model은 human preference에 상응하는 reward를 최대화하는 결과를 위해 계속적으로 학습해 나간다.DPO ste..
[CVPR 2024] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback 리뷰
·
AI Paper Review/Reinforcement Learning
AbstractMultimodal Large Language Models(MLLMs)는 understanding, reasoning, interaction에 대해 인상적인 성능을 보여주고 있음하지만 현재의 MLLMs 는 관련된 이미지에 대한 Text를 제대로 생성해내지 못하는 hallucination 문제가 있음예시를 보면 GPT4-V와 LLaVA RLHF심지어 Quantitatively하게도 SoTA MLLM인 GPT-4V에도 hallucination이 약 45.9% 발생한다고 알려짐.이는 MLLM이 untrustworthy하고 impractical하다는 것을 의미함. Challenges현재의 MLLM에서, 일반적인 RLHF의 경우 ranking label의 형태로 human preference Y를 ..