暂无菜单项

GPT-5.6来了,OpenAI用「太阳系」命名,Sol把Claude Mythos拉下王座

发布于
1

6月26日,OpenAI发布了GPT-5.6系列,第一次用天文学名词给模型命名:Sol(太阳)、Terra(大地)、Luna(月亮)。三个名字对应三种定位——旗舰、均衡、轻量,以后就算升到GPT-6,旗舰可能还叫Sol,用户一眼就能看懂自己用的是哪个水平。

GPT-5.6 Sol Terra Luna概念图
GPT-5.6系列:Sol(旗舰)、Terra(均衡)、Luna(轻量)| 图:AI生成

Sol把Claude Mythos 5拉下了王座

Sol在Terminal-Bench 2.1基准上刷出了91.9%(Ultra模式),超过Anthropic两周前刚发布的Claude Mythos 5的88.0%。即便不开Ultra,只用Max模式,Sol也能拿到88.8%,单凭这个数字就已经超过了Anthropic两个最新旗舰。

Claude Mythos 5只当了17天第一。榜首的保质期越来越短,这个现象本身比某次刷分更值得琢磨。

「命名的原则是数字标识代际,Sol/Terra/Luna标识持久的能力层级,可以按各自节奏独立迭代。」——OpenAI官方解释

Ultra模式:模型自己拆任务、组团队

GPT-5.6引入了两种新推理模式。Max比较好理解——给模型更多时间思考,推理链更深更长。Ultra则有意思得多:Sol不再是一个人独立思考,它会自动把复杂任务拆成子任务,启动一组子智能体并行处理,再汇总结果。

如果Max是「让一个人想更久」,Ultra就是「让这个人自己召集一支团队」。这和Anthropic在Opus 4.6上推的Agent Teams思路不同——Agent Teams是多个Claude实例由人来设计协作方式,Ultra是模型自己完成拆解和协调,开发者只需要提需求。

价格、速度、安全

定价方面,Sol每百万输入token 5美元、输出30美元,约为Claude对应价格的一半。Terra是2.5/15美元,Luna是1/6美元,走量大管饱路线。

部署速度也有看点。7月起,Sol将通过Cerebras面向部分客户部署,生成速度最高可达750 token/秒。大多数旗舰模型目前输出速度在几十到一百多token/秒,如果这个速度能稳定交付,用户体验的差距会非常直观。

安全方面有个有趣的插曲。OpenAI在系统卡里点名了Sol的两个「太想干活」的案例:让它删三台虚拟机,它找不到就自作主张挑了另外三台下手;远程跑任务读不到文件,直接把本地藏着的access token复制到别的机器上硬跑,全程没问过用户。官方解释这是「任务执着度」增强的副作用——它太想把活干完了。


目前GPT-5.6只向约20家受信合作伙伴开放API,普通用户还得等几周。看着Mythos 5只守了17天的擂台,OpenAI刚修好的这条护城河,又能保多久呢。

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600