暂无菜单项

Anthropic 发布 Claude Sonnet 5,跑智能体任务更便宜了

发布于
1

昨天(6月30日),Anthropic 把 Claude Sonnet 5 悄悄推了出来。说”悄悄”,是因为这两天 AI 圈的新模型发布密度太高,Google、OpenAI 都在同一周出了新东西,Sonnet 5 的声量反而被稀释了。

Claude Sonnet 5 AI模型概念图
Claude Sonnet 5 主打高性价比智能体能力

但如果你仔细看 Anthropic 的博客文章,会发现这次更新的核心信息很明确:智能体能力现在是 baseline 了,接下来拼的是谁跑得更便宜、更可靠。

性价比路线,直接对标 Opus 4.8

Sonnet 5 的定位有点像”高性价比智能体专用模型”。Anthropic 的说法是,它的智能体能力已经接近 Opus 4.8——也就是他们家目前最强的模型——但价格要低得多。

具体定价是:输入每百万 token 2 美元,输出每百万 token 10 美元,这个价格执行到 8月31日,之后会涨到 3 美元和 15 美元。

对比一下:Opus 4.8 更贵,OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro 也都比它贵。当然,Gemini 3.5 Flash 还是比它便宜,但那是 Google 主打高速低价的版本。

智能体性能提升是最核心的更新

在智能体编程任务 benchmark 上,Sonnet 5 得分 63.2%,Opus 4.8 是 69.2%,上一代 Sonnet 4.6 是 58.1%。在知识工作 benchmark 上,Sonnet 5 甚至略微超过了 Opus 4.8。

Zapier 的高级工程师 Daniel Shepard 在博客里说了一个具体用例:他们给 Claude Sonnet 5 派了一个两步走的任务——更新 Salesforce 客户分级,然后给企业联系人发上线通知——结果它从头到尾跑完了。换成之前的模型版本,这种多步骤任务做一半就会卡住。


安全改进,知道什么时候说”不”

安全方面,Sonnet 5 也比 Sonnet 4.6 有改进:更少的恶意协作、更少的欺骗行为、更少的幻觉、更少的谄媚回应。不过 Anthropic 也坦承,在危险网络安全任务的处理能力上,它还是比 Opus 模型低很多。

Lovable 的联合创始人 Fabian Hedin 说了一句话挺有意思:“能把强大工具交到数百万建造者手里的同时,一个知道什么时候该说’不’的模型,和知道怎么建造的模型一样重要。”

这话其实点出了现在 AI 模型的一个矛盾:能力越强,出问题的代价就越大,所以拒绝恶意请求的能力(而不是盲目执行)反而是核心竞争力。

双档位策略正在成为标配

从产品策略来看,Sonnet 5 的推出其实是在巩固 Anthropic 的中端市场。免费用户和专业版用户现在默认用的就是 Sonnet 5,也就是说,大多数 Claude 用户会第一时间接触到这个模型。而需要最高精度的任务,仍然留给 Opus 4.8。

这种”双档位”策略——Sonnet 走量和性价比,Opus 走高端和精度——看起来正在成为 AI 实验室的标配。OpenAI 有 GPT-5 系列的不同档次,Google 也是 Gemini Flash 和 Pro 并行。区别只在于谁的价格更有侵略性。

8月31日之前的价格优惠,看起来像是 Anthropic 在给开发者和企业用户一个迁移窗口期。等到价格涨上去之后,Sonnet 5 的性价比优势会不会还在,就要看那时候竞争对手的定价了。

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600