突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力

多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用:

多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用:

  • 在训练阶段,它可以提供稳定的reward;
  • 在评估阶段,它可以选择更好的sample结果;
  • 单独使用时,它可以直接作为evaluator;

……

而强化学习(RL)在理论上能够对MRM引入长期推理能力,使MRM更加高效。

但如果直接把现有的RL算法(比如Reinforce++)用到训练MRM上,就会出现很多状况,比如,训练过程会很不稳定、甚至可能直接崩掉

突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力

现在,来自中科院自动化所、清华大学、快手和南京大学的研究团队,在探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力方面,取得了新进展:

基于多模态强化学习的工作MM-RLHF(ICML 2025),进一步推出了R1-Reward模型。

在现有的多模态奖励模型benchmark的基础上,相比于当前最先进的SOTA模型,实现5%-15%的提升。

且随着inference sampleing的数目增多还能进一步增长!

突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力

主要贡献

突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力

1. 重新定义问题

作者把训练奖励模型这个问题,看成是一个基于规则的强化学习任务。简单说,就是给奖励模型一个问题和两个答案,让它通过学习来判断哪个答案更好,并且能给出合理的分析。

2. 提出新算法StableReinforce

针对现有RL算法的不足,他们提出了一个改进版的算法叫StableReinforce。这个算法主要在几个方面做了优化:

  • 改进了损失函数里的裁剪操作,提出了Pre-Clip,防止数值计算不稳定。
  • 提出了一种更稳健的优势值(advantage)处理方法(叫做优势过滤器Advantage Filter),不容易被极端值带偏。
  • 设计了一个新颖的“一致性奖励”(Consistency Reward):它引入了另一个大模型作为“裁判”,专门检查奖励模型自己的分析过程和它最终给出的答案是不是一致的。如果一致,就给奖励,这样能促使模型做出更符合逻辑的判断。

3. 渐进式的训练策略

  • 他们从各种公开数据集中收集了20万条偏好数据,构建了一个名为R1-Reward-200k的数据集用于训练。
  • 采用了一种“渐进式难度”的训练策略。因为直接用RL训练模型效果不好(冷启动问题),他们先用GPT-4o对这些数据生成了详细的思考过程,作为监督微调(SFT)的数据,让模型先“入门”。同时,他们记录了GPT-4o判断每个样本的难度(需要尝试几次才能判断对)。
  • 在后续的强化学习阶段,专门挑选那些GPT-4o都觉得比较难(需要尝试多次或者干脆判断错误)的样本进行训练,让模型在难题上得到锻炼。

4. 效果显著

  • 实验结果表明,这个R1-Reward模型在几个主流的多模态奖励模型测评基准(如VL Reward-Bench,Multimodal Reward Bench)上表现非常出色,显著超过了之前的最佳模型(SOTA)。比如在一个榜单上提升了8.4%,在另一个榜单上提升了14.3%。
  • 更有趣的是,他们发现通过在推理时多做几次计算(比如采样5次或15次,然后投票选最多的答案),R1-Reward的性能还能进一步大幅提升,这说明RL方法在优化奖励模型方面潜力巨大。
  • 他们还观察到,经过StableReinforce的RL训练后,模型输出的平均长度减少了大约15%,这意味着模型可能变得更有效率了。

现有强化学习方法的局限性

什么是奖励模型

首先得知道,奖励模型(Reward Model)是干嘛的。简单说,它就是用来判断两个模型的回答,哪一个更符合人类喜好。

具体的优化公式大概长这样:

突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力

这里的r(y|x)就是模型打的分数,σ是个sigmoid函数,E表示求期望(平均)。意思就是,模型要尽量让好答案的分比坏答案的分高,差距越大越好,然后通过log和sigmoid函数来计算损失。

PPO和Reinforce++算法简介

PPO(Proximal Policy Optimization)

PPO是一种很常用的强化学习算法,属于策略梯度方法,目标是直接优化模型(策略)来获得最大的累积奖励。它的厉害之处在于——它不像传统的策略梯度方法那样,容易因为步子迈太大而导致训练不稳定。

PPO通过一种特殊的方式来限制每次策略更新的幅度。它的目标函数是这样的:

突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力

这个公式的核心思想在于那个min和clip操作。它确保了就算ratio*A_t(标准的策略梯度目标)很大,也会被clip后的项限制住,防止策略更新过猛导致训练不稳定。

PPO因为实现简单、效果好,所以在很多地方(比如机器人控制、玩游戏)都用得很广。

Reinforce++

Reinforce++是在PPO基础上做了一些优化的版本,目的是让训练更稳定、更高效。主要改进有:

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

谷歌DeepMind&CMU:过去引导LLM规划的方法是错的? 用GRASE-DC改进。ICLR2025

2025-5-9 12:00:39

AI新闻资讯

AI不靠“闭门造神”,海内外一线专家共探智能新纪元,GOSIM AI Paris 2025圆满收官!

2025-5-9 12:15:40

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索