打破规模束缚!微软 Phi-4-reasoning 以 140 亿参数,跃升推理模型性能前列

微软推出 140 亿参数的开源推理模型 Phi-4-reasoning 。该模型基于约 140 万精心整理的推理示例进行监督微调(SFT),并经少量强化学习(RL)。虽规模不大,但在数学基准测试(如 AIME、HMMT、OmniMath 等)中,性能优于部分更大规模模型。它在推理能力上表现突出,通过 SFT 展现出推理技能的可迁移性,RL 进一步优化推理机制。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索