暂无菜单项

阿里发了款新模型,价格只有Claude的一半,性能却差不多

发布于
2

阿里发了款新模型,价格只有Claude的一半,性能却差不多

5月20日的杭州阿里云峰会上,高级副总裁刘伟光说了一句挺有意思的话:”我们正在打造中国AI工厂。”台下的人可能还没意识到,这句话背后的分量——阿里不再满足于做开源模型的社区宠儿,它要直接和Anthropic、OpenAI在企业级市场正面刚。

“我们在各基准测试中排名靠前,超过中国所有其他AI模型。”
——阿里云首席AI架构师 周静仁

当天正式发布的Qwen3.7 Max,是阿里第一款闭源旗舰模型。这个转向值得玩味:过去两年,阿里靠开源的Qwen 3.5、3.6系列占据了大量开发者生态,现在它想把这套生态转化成真金白银的企业收入。


数字摆出来,确实有点东西

先说硬指标。Qwen3.7 Max的上下文窗口达到100万tokens,比上一代Qwen 3.6的25.6万tokens提升了近40倍。这意味着什么?你可以把一整本技术手册、一个中等规模代码库,一次性塞进模型的”工作记忆”里,不用再做切片和向量检索。

人工分析智能指数(AA Intelligence Index v4.0)给Qwen3.7 Max打了56.6分,综合排名第5,是发布时排名最高的中国模型。排它前面的是GPT-5.5(60.2分)、Claude Opus 4.7(57.3分),分差在误差范围内。

换成大白话:阿里这套模型,智能水平和Claude Opus 4.7差不多,但定价只有后者的一半。

评测维度 Qwen3.7 Max Claude Opus 4.7 GPT-5.5
AA智能指数 56.6(第5) 57.3(第4) 60.2(第1)
Terminal-Bench 2.0 69.7 65.4(4.6基线) 未披露
SWE-Bench Pro 60.6 57.3(4.6基线) 未披露
输入定价(美元/百万tokens) 2.5 5.0 5.0
输出定价(美元/百万tokens) 7.5 25.0 30.0

定价是亮点,但实际成本有点猫腻

标题说”价格只有Claude的一半”,指的是官方标价。但用起来是不是真的只要一半,这里有个坑。

Digital Applied的评测发现,Qwen3.7 Max的输出冗余度极高。在AA智能指数评测中,它一共生成了9700万输出tokens,而对比组的中位数仅为2400万tokens——是中位数的4倍。换句话说,同样回答一个问题,Qwen3.7 Max可能会输出4倍长度的”废话”。

按7.5美元/百万输出tokens计算,同等任务下Qwen3.7 Max的实际输出成本是中等冗余度模型的2.5倍。所以标价和Claude Opus 4.7的实际差距,远没有一半那么大。

不过,阿里给了一个挺实在的折扣:缓存输入0.25美元/百万tokens(90%折扣)。对于智能体任务(重复调用相同系统提示词),这个折扣能把成本压得很低。


智能体编程是真本事

Qwen3.7 Max的核心卖点是”智能体(Agent)能力”。阿里在发布会上演示了一个35小时自主运行的编程任务:模型连续运行35小时,完成1158次工具调用、432次内核评估、5次架构重设计,最终把Triton内核的几何平均速度提升了10倍。

这个演示还没被独立复现,但基准测试成绩是实打实的。Terminal-Bench 2.0(测试多步骤智能体工作流)得分69.7,SWE-Bench Pro(真实软件工程任务)得分60.6,MCP-Atlas(模型上下文协议适配)得分76.4,均领先对比组。

更重要的是兼容性。Qwen3.7 Max支持OpenAI兼容和Anthropic兼容两种API规范,可以适配Claude Code、OpenClaw、Qwen Code、Hermes Agent等多款智能体框架。已经用上Claude Code的团队,无需重写框架就能切换调用。


两个地方要注意

第一个是幻觉率。Qwen3.7 Max的AA-Omniscience幻觉率为22.9%,是同期前沿模型中最低的,较上一代Qwen 3.6的44.2%大幅下降。但这个提升部分来自”弃答策略”:模型答题尝试率从67.3%下降至48.0%,超过一半的问题它会选择”不知道”而非给出答案。

这意味着什么?如果你做的是智能体编程,答错比弃答危害更大,Qwen3.7 Max反而有优势。但如果你做的是RAG管道、法律或医疗问答这些需要高召回率的场景,它的弃答率会让你头疼,这类场景建议用DeepSeek V4 Pro或Claude Opus 4.7。

第二个是开源权重。阿里已公布计划推出开源的Qwen 3.7 Plus轻量版,但截至5月25日,HuggingFace的Qwen组织下仅公布了Qwen 3.6及更早版本权重,暂未放出Qwen 3.7系列权重。需要自部署的团队,目前还得用Qwen 3.6系列或者DeepSeek V4 Pro。


战略意图比模型本身更值得琢磨

把Qwen3.7 Max放在更大的格局里看,这事的意义不止是一款新模型发布。

过去两年,中美AI模型之间的差距,外界普遍认为是”一个迭代周期”——大概6到9个月。Qwen3.7 Max的AA智能指数和Claude Opus 4.7只差0.7分,基本在误差范围内。这意味着,中国前沿AI已经不再落后西方实验室一个迭代周期,差距正在收窄到同一代内的不同批次。

阿里的全栈布局也在同步推进。模型(Qwen3.7 Max)+ 自研芯片(Zhenwu M890 AI加速器)+ 智能体框架,这套组合在地缘政治压力下有特殊的战略价值——即便买不到英伟达最新芯片,阿里也有一套自己可控的技术栈。

对于企业用户来说,Qwen3.7 Max目前是通过阿里云模型工作室、OpenRouter、Together AI、Qubrid AI四个渠道访问。建议针对自身任务子集做基准测试,结合实际冗余度调整后的成本做路由决策,而不是只看官方定价。

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600