近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。
随着大数据的应用,现有的语言模型已经展现出处理文本的超越能力,甚至能够在交互环境中做出基于知识的决策。然而,这些模型在实际决策时却常常出现 “纸上谈兵” 的问题,虽然能推导出正确的策略,却无法有效地执行。此外,它们还倾向于选择短期内能够获得更高回报的选项,同时较小的模型常常因为频率偏见而重复常见的动作。
传统的强化学习方法,比如 UCB 算法,虽然可以在一定程度上平衡探索与利用,但仍然无法完全解决模型推理与行动之间的脱节问题。为此,DeepMind 团队创新性地引入了强化学习微调技术,利用模型自生成的思维链作为训练信号。系统将评估每个推理步骤所对应的行动奖励,促使模型优先选择逻辑自洽且有效的行动方案。
在实际实施过程中,模型根据输入指令及历史行动与奖励生成包含推理过程和动作的序列。通过蒙特卡洛基线评估和广义优势估计进行优化,若采取无效动作,则会触发惩罚机制。同时,奖励塑造技术的引入不仅保证了输出的规范性,还保留了探索的空间。
在实验中,研究团队测试了多臂老虎机模型。在10臂的测试中,2B 参数模型的动作覆盖率提升了12个百分点。在20臂的测试中,虽然改善幅度较小,但频次偏见率从70% 降至35%,显示出研究的有效性。井字棋的实验结果显示,模型与随机对手对战的胜率提升了5倍,对阵最优蒙特卡洛树搜索代理时的平均回报从 -0.95归零。此外,27B 大模型生成正确推理的概率达到了87%,而未微调时仅有21% 能够执行最优动作。这一系列的数据充分证明了强化学习微调在缩小推理与行动之间差距方面的有效性。
划重点:
📊 研究采用强化学习微调(RLFT)技术提升 AI 语言模型的决策能力。
🧩 通过自生成思维链进行训练,模型的逻辑推理和行动选择得到有效提升。
🏆 实验显示,模型在多臂老虎机及井字棋中均显著改善了表现,缩小了推理与执行之间的差距。