多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,
在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。
尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,
但其在奖励建模中的应用仍然受到挑战,尤其是如何通过强化学习对奖励模型引入长期推理能力。
来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce++)用到训练 MRM 上,会遇到很多问题,
比如训练过程很不稳定,甚至直接崩掉。本文的出发点就是要解决这些问题,探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。
基于团队在多模态强化学习的工作 MM-RLHF (ICML 2025),本文进一步提出了 R1-Reward,
在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升,且随着 inference sampling 的数目增多还能进一步增长。
R1-Reward 不仅在学术上展现了巨大价值,还在快手的实际业务场景中得到了成功应用。
例如,在短视频、电商和直播等场景中,该方法已用于标签识别、多图 / 多视频相关性判断以及短视频推荐,并取得了显著的性能提升,展示了较强的工业化潜力。
- [📖 arXiv Paper](https://arxiv.org/abs/2505.02835)
- [📊 Training Code](https://github.com/yfzhang114/r1_reward)
- [🏆 R1-Reward Model](https://huggingface.co/yifanzhang114/R1-Reward)
一分钟速看全文内容
1. 重新定义问题:作者把训练奖励模型这个问题,看成是一个基于规则的强化学习任务。
简单说,就是给奖励模型一个问题和两个答案,让它通过学习来判断哪个答案更好,并且能给出合理的分析。
2. 提出新算法 StableReinforce:针对现有 RL 算法的不足,他们提出了一个改进版的算法叫 StableReinforce。这个算法主要在几个方面做了优化:
- 改进了损失函数里的裁剪操作,提出了 Pre-Clip,防止数值计算不稳定。
- 提出了一种更稳健的优势值(advantage)处理方法(叫做优势过滤器 Advantage Filter),不容易被极端值带偏。
- 设计了一个新颖的“一致性奖励” (Consistency Reward)。
它引入了另一个大模型作为 “裁判”,专门检查奖励模型自己的分析过程和它最终给出的答案是不是一致的。
如果一致,就给奖励,这样能促使模型做出更符合逻辑的判断。
3. 渐进式的训练策略:
- 他们从各种公开数据集中收集了 20 万条偏好数据,构建了一个名为 R1-Reward-200k 的数据集用于训练。
- 采用了一种 “渐进式难度” 的训练策略。
因为直接用 RL 训练模型效果不好(冷启动问题),他们先用 GPT-4o 对这些数据生成了详细的思考过程,作为监督微调(SFT)的数据,让模型先 “入门”。
同时,他们记录了 GPT-4o 判断每个样本的难度(需要尝试几次才能判断对)。
- 在后续的强化学习阶段,专门挑选那些 GPT-4o 都觉得比较难(需要尝试多次或者干脆判断错误)的样本进行训练,让模型在难题上得到锻炼。
4. 效果显著:
- 实验结果表明,这个 R1-Reward 模型在几个主流的多模态奖励模型测评基准(如 VL Reward-Bench, Multimodal Reward Bench)上表现非常出色,
显著超过了之前的最佳模型 (SOTA)。比如在一个榜单上提升了 8.4%,在另一个榜单上提升了 14.3%。
- 更有趣的是,他们发现通过在推理时多做几次计算(比如采样 5 次或 15 次,然后投票选最多的答案),
R1-Reward 的性能还能进一步大幅提升,这说明 RL 方法在优化奖励模型方面潜力巨大。
- 他们还观察到,经过 StableReinforce 的 RL 训练后,模型输出的平均长度减少了大约 15%,这意味着模型可能变得更有效率了。
现有强化学习方法的局限性
什么是奖励模型
奖励模型(Reward Model)通常被用来判断两个模型的回答,哪一个更符合人类喜好。具体的优化公式如下:
具体的优化公式大概长这样:
这里的 r (y|x) 是模型打的分数,σ 是个 sigmoid 函数,E 表示求期望(平均)。
即模型要尽量让好答案的分比坏答案的分高,差距越大越好,然后通过 log 和 sigmoid 函数来计算损失。
PPO 和 Reinforce++ 算法简介
- PPO (Proximal Policy Optimization)
PPO 是一种很常用的强化学习算法,属于策略梯度方法,目标是直接优化模型(策略)来获得最大的累积奖励。
它的厉害之处在于,它不像传统的策略梯度方法那样容易因为步子迈太大而导致训练不稳定。PPO 通过一种特殊的方式来限制每次策略更新的幅度。
它的目标函数如下:
这个公式的核心思想在于 min 和 clip 操作。
它确保了就算 ratio * A_t (标准的策略梯度目标)很大,也会被 clip 后的项限制住,防止策略更新过猛导致训练不稳定。
PPO 因为实现简单、效果好,所以在很多地方(比如机器人控制、玩游戏)都得到了应用。