打破规模束缚!微软 Phi-4-reasoning 以 140 亿参数,跃升推理模型性能前列 5月03日 willai 取消关注 关注 私信 微软推出 140 亿参数的开源推理模型 Phi-4-reasoning 。该模型基于约 140 万精心整理的推理示例进行监督微调(SFT),并经少量强化学习(RL)。虽规模不大,但在数学基准测试(如 AIME、HMMT、OmniMath 等)中,性能优于部分更大规模模型。它在推理能力上表现突出,通过 SFT 展现出推理技能的可迁移性,RL 进一步优化推理机制。