阿里发了款新模型，价格只有Claude的一半，性能却差不多

5月20日的杭州阿里云峰会上，高级副总裁刘伟光说了一句挺有意思的话：”我们正在打造中国AI工厂。”台下的人可能还没意识到，这句话背后的分量——阿里不再满足于做开源模型的社区宠儿，它要直接和Anthropic、OpenAI在企业级市场正面刚。

“我们在各基准测试中排名靠前，超过中国所有其他AI模型。”
——阿里云首席AI架构师周静仁

当天正式发布的Qwen3.7 Max，是阿里第一款闭源旗舰模型。这个转向值得玩味：过去两年，阿里靠开源的Qwen 3.5、3.6系列占据了大量开发者生态，现在它想把这套生态转化成真金白银的企业收入。

先说硬指标。Qwen3.7 Max的上下文窗口达到100万tokens，比上一代Qwen 3.6的25.6万tokens提升了近40倍。这意味着什么？你可以把一整本技术手册、一个中等规模代码库，一次性塞进模型的”工作记忆”里，不用再做切片和向量检索。

人工分析智能指数（AA Intelligence Index v4.0）给Qwen3.7 Max打了56.6分，综合排名第5，是发布时排名最高的中国模型。排它前面的是GPT-5.5（60.2分）、Claude Opus 4.7（57.3分），分差在误差范围内。

换成大白话：阿里这套模型，智能水平和Claude Opus 4.7差不多，但定价只有后者的一半。

评测维度	Qwen3.7 Max	Claude Opus 4.7	GPT-5.5
AA智能指数	56.6（第5）	57.3（第4）	60.2（第1）
Terminal-Bench 2.0	69.7	65.4（4.6基线）	未披露
SWE-Bench Pro	60.6	57.3（4.6基线）	未披露
输入定价（美元/百万tokens）	2.5	5.0	5.0
输出定价（美元/百万tokens）	7.5	25.0	30.0

标题说”价格只有Claude的一半”，指的是官方标价。但用起来是不是真的只要一半，这里有个坑。

Digital Applied的评测发现，Qwen3.7 Max的输出冗余度极高。在AA智能指数评测中，它一共生成了9700万输出tokens，而对比组的中位数仅为2400万tokens——是中位数的4倍。换句话说，同样回答一个问题，Qwen3.7 Max可能会输出4倍长度的”废话”。

按7.5美元/百万输出tokens计算，同等任务下Qwen3.7 Max的实际输出成本是中等冗余度模型的2.5倍。所以标价和Claude Opus 4.7的实际差距，远没有一半那么大。

不过，阿里给了一个挺实在的折扣：缓存输入0.25美元/百万tokens（90%折扣）。对于智能体任务（重复调用相同系统提示词），这个折扣能把成本压得很低。

Qwen3.7 Max的核心卖点是”智能体（Agent）能力”。阿里在发布会上演示了一个35小时自主运行的编程任务：模型连续运行35小时，完成1158次工具调用、432次内核评估、5次架构重设计，最终把Triton内核的几何平均速度提升了10倍。

这个演示还没被独立复现，但基准测试成绩是实打实的。Terminal-Bench 2.0（测试多步骤智能体工作流）得分69.7，SWE-Bench Pro（真实软件工程任务）得分60.6，MCP-Atlas（模型上下文协议适配）得分76.4，均领先对比组。

更重要的是兼容性。Qwen3.7 Max支持OpenAI兼容和Anthropic兼容两种API规范，可以适配Claude Code、OpenClaw、Qwen Code、Hermes Agent等多款智能体框架。已经用上Claude Code的团队，无需重写框架就能切换调用。

第一个是幻觉率。Qwen3.7 Max的AA-Omniscience幻觉率为22.9%，是同期前沿模型中最低的，较上一代Qwen 3.6的44.2%大幅下降。但这个提升部分来自”弃答策略”：模型答题尝试率从67.3%下降至48.0%，超过一半的问题它会选择”不知道”而非给出答案。

这意味着什么？如果你做的是智能体编程，答错比弃答危害更大，Qwen3.7 Max反而有优势。但如果你做的是RAG管道、法律或医疗问答这些需要高召回率的场景，它的弃答率会让你头疼，这类场景建议用DeepSeek V4 Pro或Claude Opus 4.7。

第二个是开源权重。阿里已公布计划推出开源的Qwen 3.7 Plus轻量版，但截至5月25日，HuggingFace的Qwen组织下仅公布了Qwen 3.6及更早版本权重，暂未放出Qwen 3.7系列权重。需要自部署的团队，目前还得用Qwen 3.6系列或者DeepSeek V4 Pro。

把Qwen3.7 Max放在更大的格局里看，这事的意义不止是一款新模型发布。

过去两年，中美AI模型之间的差距，外界普遍认为是”一个迭代周期”——大概6到9个月。Qwen3.7 Max的AA智能指数和Claude Opus 4.7只差0.7分，基本在误差范围内。这意味着，中国前沿AI已经不再落后西方实验室一个迭代周期，差距正在收窄到同一代内的不同批次。

阿里的全栈布局也在同步推进。模型（Qwen3.7 Max）+ 自研芯片（Zhenwu M890 AI加速器）+ 智能体框架，这套组合在地缘政治压力下有特殊的战略价值——即便买不到英伟达最新芯片，阿里也有一套自己可控的技术栈。

对于企业用户来说，Qwen3.7 Max目前是通过阿里云模型工作室、OpenRouter、Together AI、Qubrid AI四个渠道访问。建议针对自身任务子集做基准测试，结合实际冗余度调整后的成本做路由决策，而不是只看官方定价。

埃琳·布罗克维奇新活：给美国AI数据中心画地图，把争议摊在阳光下