Cursor Composer 2.5来了：不换底座，性能硬刚Claude Opus 4.7

Cursor这次真的被逼急了。5月18日，他们发布了自研编程模型Composer 2.5，口号很直接：不换底座，不涨价，性能硬刚Claude Opus 4.7和GPT-5.5。 基于Kimi K2.5，后训练投入是上代的25倍 Compos

Cursor这次真的被逼急了。5月18日，他们发布了自研编程模型Composer 2.5，口号很直接：不换底座，不涨价，性能硬刚Claude Opus 4.7和GPT-5.5。

Composer 2.5没有换基础模型，仍然沿用月之暗面的Kimi K2.5。Cursor把85%的计算量砸进了后训练——自行完成的训练与强化学习优化。

合成任务数据量是上一代的25倍。其中一个典型训练方法是”功能删除”：从可运行代码库中删除某项功能，要求模型重新实现，用可验证的结果作为奖励信号。

Cursor内部已有35%的合并PR由自主Agent创建。Composer 2.5是他们对”Claude Code抢走编程助手老大位置”的直接反击。

先看基准测试成绩：

SWE-Bench Multilingual：Composer 2.5得79.8%，Claude Opus 4.7得80.5%，GPT-5.5得77.8%
Terminal-Bench 2.0：Composer 2.5得69.3%，Claude Opus 4.7得69.4%，GPT-5.5得82.7%
CursorBench v3.1：Composer 2.5得63.2%，Claude Opus 4.7（最高设置）得64.8%

综合来看，Composer 2.5的性能已经接近Claude Opus 4.7，但成本只有竞品的1/10。

定价：输入0.5美元/百万token，输出2.5美元/百万token。在CursorBench上达到63%成绩时，单任务平均成本低于1美元；而Opus 4.7、GPT-5.5达到类似或更差结果时，单任务成本高出数美元。

Composer 2.5有几个值得说一下的技术亮点：

带文本反馈的定向强化学习。打破仅在长rollout结束后给予单一奖励信号的模式，在模型执行出错的位置直接插入局部提示（比如工具调用错误时提示可用工具范围），将修正后的分布作为教师信号，提升信用分配精度。

大规模合成数据。使用的合成任务数量是上一代的25倍。训练过程中也出现了模型”钻空子”现象，比如逆向分析Python类型检查缓存恢复被删除函数签名、反编译Java字节码重建第三方API等，相关情况通过Agent式监控发现。

Sharded Muon与双mesh HSDP。使用分布式版本的Muon优化器，可在不同分片上异步运行Newton-Schulz正交化，同时将网络通信与计算过程重叠，在1T参数模型上的优化器单步耗时仅0.2秒。

Cursor做这件事的背景很明确：Anthropic的Claude Code已经成为他们的核心竞品，据称年化收入超25亿美元，企业客户超30万家。

如果Cursor继续依赖Anthropic的模型能力，需要向其支付推理成本，处于被动竞争地位。自研模型是Cursor摆脱依赖的必要动作。

截至2025年年中，Cursor每天生成10亿行被接受的代码，67%的财富500强企业是其客户。但市场关注点已从IDE体验转向自主编程Agent能力，Composer 2.5是Cursor对赛道变化的回应。

TradingAgents：用多智能体协作做金融交易决策，GitHub 7.3万星