AI Paper Review/Reinforcement Learning
[CVPR 2024] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback 리뷰
jiminai
2024. 8. 3. 01:01
반응형
Abstract
- Multimodal Large Language Models(MLLMs)는 understanding, reasoning, interaction에 대해 인상적인 성능을 보여주고 있음
- 하지만 현재의 MLLMs 는 관련된 이미지에 대한 Text를 제대로 생성해내지 못하는 hallucination 문제가 있음
- 예시를 보면 GPT4-V와 LLaVA RLHF
- 심지어 Quantitatively하게도 SoTA MLLM인 GPT-4V에도 hallucination이 약 45.9% 발생한다고 알려짐.
- 이는 MLLM이 untrustworthy하고 impractical하다는 것을 의미함.
Challenges
- 현재의 MLLM에서, 일반적인 RLHF의 경우 ranking label의 형태로 human preference Y를 모은다.
- Human Preference Data : Underlying Factors and Challenges
- $Y = Y_p + Y_s + Y_n$
- $Y$는 preferred output($y_w$) 과 inferior output($y_l$)의 차이임. $Y$는 다음과 같이 세 가지로 나뉨
- $Y_s$ : shallow non-robust bias correlated with the data, 하지만 human judgement와는 관계가 없음
- $Y_n$: random noise factor - linguistic variance of NL (같은 의미를 서로 다르게 표현하는 정도)
- $Y_p$ : trustworthy한 truly preferred behavior
- → 실제로 perference learning을 할 때에는 긍정적인 피드백 $Y_p$을 더 강화하려고 하고, 부정적인 값($Y_s$와 $Y_n$)을 최소화하려는 것
- 하지만 이러한 방식의 경우 해당 paper에서는 주요한 문제가 있다고 파악
- Annotation Ambiguity
- → $Y_p$와 관련하여 어떤 response가 human에게 더 선호되는지를 아는 것은 어려움
- → 이것은 annotating자체가 어려워진다는 뜻으로까지 이어짐
- → 명확한 preference를 기준으로 rank 가 labelling되었더라도 question에 대한 최적의 답변은 여전히 unknown으로 남아있음
- Learning Efficiency
- → RL 동안, $Y_n$으로부터 sparse한지 fine한지 구분해야 하는 소요 때문에 $Y_p$를 learning하는 데에 더 많은 labelled data가 필요함
- → $Y_s$ non-robust bias factor의 misallocation은 reward를 얻을 수 없고 behavior degeneration problem을 일으킴
- 언어의 복잡성과 response가 다양한 점들을 고려하면, 이것들을 모두 학습하기에는 무리가 있음
- 이러한 challenge를 다루기 위해, fine-grained correctional human feedback으로부터의 behavior alignment를 통한 MLLM의 truthworthiness를 강화시키는 RLHF-V를 제시함.
- RLHF-V는 segment-level correction 형태의 human preference를 모으며, human feedback에 기반하여 dense direct preference optimization을 수행하는 novel framework임.
- 이에 따라 RLHF-V는 두 가지 innovation을 제시함.
- data level에서, fine-grained segment level correction의 형태인 HF를 모으는 것 제안.
- →이 전략은 linguistic variance와 non-robust함을 피할 수 있고, learning efficiency문제와 reward hacking problem을 막을 수 있음.
- Method Level에서는 DDPO 방식을 제시함
- data level에서, fine-grained segment level correction의 형태인 HF를 모으는 것 제안.
- Annotation Ambiguity
⇒ 1.4k의 preference data를 통해, RLHF-V는 object hallucination rate를 base MLLM에서 34.8%까지 줄일 수 있었음.
(이는 LLaVA-RLHF가 10k preference data를 train한 결과보다 좋고, GPT-4V보다도 좋다는 것을 보여줌)
- segment 에서의 correction의 annoation은 human label더 잘한다.
- dense하고 fine-grained한 feedback은 $Y_p$로 할당되어서 Learning에 반영되고, $Y_n,Y_s$는 제외한다. 이렇게 함으로써 learning efficiency를 improve한다.
Preliminaries
- 기존의 popular 했던 RLHF 방식은
- → preference data에 적절한 prompt dataset을 맞춰, preference model을 사용하여 preference loss를 정의하여 reward model을 학습한 다음 이렇게 학습된 reward model을 최적화하는 policy을 학습함
- → 이때 여러 개의 LLM을 sampling하고 training하는 것이 요구되는데, 이때의 cost는 너무 크다.
- DPO
- 이러한 cost의 문제로 인해 DPO 등장.
- DPO는 직접적으로 simple classification objective의 선호에 맞춰 가장 satisfy하는 policy를 optimize한다 .
- DPO는 variable changing method를 사용하여 preference loss을 policy의 function으로 직접 정의함.
- 이러한 DPO는 LM의 sentiment modulation, summarization, 그리고 dialogue에서 기존의 PPO-based RLHF와 거의 버금가는 성능을 보일 정도로 좋다고 함.
-
- DPO의 RL Phase이고, 이미 배운 reward model을 사용하여 LM에게 피드백을 제공함
- b는 $\pi_{ref}$ 의 deviation을 조절하는 parameter
- $\pi_{ref}$ 의 initial은 $\pi^{SFT}$ 임.
- KL Constraint addition : 모델이 distribution으로부터 너무 멀리 가지 않도록 막아줌과 동시에 생성에 대한 diversity와 mode-collapse를 막아주는 기능을 함.
$Z(x)$는 partition function이다. partition function(분할 함수 - 병렬처리가능, 빠른 진행, 정규화)
위 식의 경우 logZ(x)가 $\pi$와는 관련이 없는 식이기 때문에 그것을 제껴서 KL Divergence로 변형이 가능하다는 말임.
그리고 KL Divergence 식을 봤을 때 가장 작게 되는 값은 KLD에서 두 분포가 서로 같은 경우 0의 값이 되는데, 그때를 목표로 하는 것으로 접근해야 함. 따라서 optimal solution이 달성됨.
Method
- DDPO
- dense하고 fine-grained한 segment level feedback은 segment-level action에 대한 reward를 도출해 내기를 원한다.
- DPO(Direct Preference Optimization)은 조금 더 간단한 supervised fashion으로 해결 가능 → reward function 과 reference model을 사용하여 loss 계산함
(추가작성예정)
반응형