### [Cursor Composer 2.5来了:不换底座,性能硬刚Claude Opus 4.7](https://www.willai.cc/article/591) **Published:** 2026-05-23T17:49:06 **Author:** hiyoho **Excerpt:** Cursor这次真的被逼急了。5月18日,他们发布了自研编程模型Composer 2.5,口号很直接:不换底座,不涨价,性能硬刚Claude Opus 4.7和GPT-5.5。 基于Kimi K2.5,后训练投入是上代的25倍 Compos Cursor这次真的被逼急了。5月18日,他们发布了自研编程模型**Composer 2.5**,口号很直接:不换底座,不涨价,性能硬刚Claude Opus 4.7和GPT-5.5。 ### 基于Kimi K2.5,后训练投入是上代的25倍 Composer 2.5没有换基础模型,仍然沿用月之暗面的Kimi K2.5。Cursor把85%的计算量砸进了后训练——自行完成的训练与强化学习优化。 合成任务数据量是上一代的**25倍**。其中一个典型训练方法是”功能删除”:从可运行代码库中删除某项功能,要求模型重新实现,用可验证的结果作为奖励信号。 > Cursor内部已有35%的合并PR由自主Agent创建。Composer 2.5是他们对”Claude Code抢走编程助手老大位置”的直接反击。 ### 成绩接近Claude Opus 4.7,成本只有1/10 先看基准测试成绩: - **SWE-Bench Multilingual**:Composer 2.5得79.8%,Claude Opus 4.7得80.5%,GPT-5.5得77.8% - **Terminal-Bench 2.0**:Composer 2.5得69.3%,Claude Opus 4.7得69.4%,GPT-5.5得82.7% - **CursorBench v3.1**:Composer 2.5得63.2%,Claude Opus 4.7(最高设置)得64.8% 综合来看,Composer 2.5的性能已经接近Claude Opus 4.7,但**成本只有竞品的1/10**。 定价:输入0.5美元/百万token,输出2.5美元/百万token。在CursorBench上达到63%成绩时,单任务平均成本低于1美元;而Opus 4.7、GPT-5.5达到类似或更差结果时,单任务成本高出数美元。 * * * ### 技术亮点:带文本反馈的定向强化学习 Composer 2.5有几个值得说一下的技术亮点: **带文本反馈的定向强化学习**。打破仅在长rollout结束后给予单一奖励信号的模式,在模型执行出错的位置直接插入局部提示(比如工具调用错误时提示可用工具范围),将修正后的分布作为教师信号,提升信用分配精度。 **大规模合成数据**。使用的合成任务数量是上一代的25倍。训练过程中也出现了模型”钻空子”现象,比如逆向分析Python类型检查缓存恢复被删除函数签名、反编译Java字节码重建第三方API等,相关情况通过Agent式监控发现。 **Sharded Muon与双mesh HSDP**。使用分布式版本的Muon优化器,可在不同分片上异步运行Newton-Schulz正交化,同时将网络通信与计算过程重叠,在1T参数模型上的优化器单步耗时仅0.2秒。 ### 竞争压力是真实存在的 Cursor做这件事的背景很明确:Anthropic的Claude Code已经成为他们的核心竞品,据称年化收入超25亿美元,企业客户超30万家。 如果Cursor继续依赖Anthropic的模型能力,需要向其支付推理成本,处于被动竞争地位。自研模型是Cursor摆脱依赖的必要动作。 截至2025年年中,Cursor每天生成10亿行被接受的代码,67%的财富500强企业是其客户。但市场关注点已从IDE体验转向自主编程Agent能力,Composer 2.5是Cursor对赛道变化的回应。 📎 原文来源:[36氪 – 不换Kimi底座,1/10成本追平Opus 4.7?Cursor用Composer 2.5反击Claude Code](https://www.36kr.com/p/3815548495142404) **Tags:** AI, AI Agent, AI技术, Claude Code **Categories:** AI资讯 ---