### [OpenAI在2026年5月这波更新,藏着他们真正的野心](https://www.willai.cc/article/1047) **Published:** 2026-06-02T07:53:15 **Author:** hiyoho **Excerpt:** OpenAI在2026年5月这波更新,藏着他们真正的野心 2026年4月23日到5月28日这段时间,OpenAI密集发布了一堆更新。表面上看,就是发布了新模型、修了几个bug、加了两个功能。但如果你仔细看这波操作的逻辑,会发现他们真正想做的 OpenAI在2026年5月这波更新,藏着他们真正的野心 2026年4月23日到5月28日这段时间,OpenAI密集发布了一堆更新。表面上看,就是发布了新模型、修了几个bug、加了两个功能。但如果你仔细看这波操作的逻辑,会发现他们真正想做的,是把AI从”聊天工具”变成”能连续工作几小时的数字化员工”。 ### GPT-5.5来了,但重点不是”更聪明” 4月23日,GPT-5.5在API、ChatGPT Plus/Pro、Codex、Copilot中上线。数字看着挺漂亮:支持100万token上下文,SWE-bench Verified得分88.7%,MMLU 92.4%,定价5/30美元每百万token。 但真正有意思的是5月5日上线的GPT-5.5 Instant,它取代了GPT-5.3 Instant成为所有ChatGPT用户的默认模型。OpenAI内部测试显示,在高风险提示下,它的幻觉率比上一代降低了52.5%。用户标记过事实错误的真实对话中,不准确陈述减少了37.3%。 > GPT-5.5 Instant的输出也更简洁了,相同提示下输出字数减少30.2%。以前那种”好的!我很乐意帮助您…”的废话开头,现在少多了。 不过有个细节值得注意:52.5%的幻觉降低,是在开启工具使用的高风险提示下测得的数据。如果不开启工具,纯靠模型自己生成长文本,GPT-5.5的幻觉率仍有86%,远高于Claude Opus 4.7的36%。所以,它的事实性优势主要来自工具引导和上下文工程,而不是基础模型本身有多牛。 ### Codex CLI偷偷升级成了”持久自主运行时” 5月7日到26日,Codex CLI连发4个版本。表面上是加了Vim编辑支持、修了几个bug、改进了UI。但5月21日v0.133.0的更新,才是这波操作的核心:**目标模式(Goals Mode)默认开启**。 这个”目标模式”是干嘛的?简单说,就是你定义一个结果和成功标准,然后Codex可以自己跑几个小时甚至几天,而且进度是跨轮次、跨会话、跨机器持久化的。目前这个功能在CLI、IDE扩展、ChatGPT应用里都已经正式可用。 这意味着什么?以前你让AI帮你写代码,它写完就完事儿,你得自己测试、自己修bug、自己接着往下做。现在你可以直接甩给它一个目标,比如”把这个项目的所有单元测试覆盖率提升到80%”,然后你就可以去干别的了,它自己会想办法、自己测试、自己迭代,直到达成目标或者卡住。 ![Codex目标模式示意图](https://codersera.com/wp-content/uploads/2026/05/openai-codex-goals-mode.jpg) Codex目标模式让AI可以自主工作数小时 其他几个更新也挺实用:v0.131.0支持通用的”@”选择器,可以一次性搜索文件、目录、插件、技能;v0.134.0支持对话历史搜索,还支持按服务器配置MCP环境变量。这些看起来是小事儿,但堆在一起,就是在把Codex从”交互式编码助手”升级成”持久自主运行时”。 ### ChatGPT for Excel和Google Sheets,这步棋下得挺大 5月5日,ChatGPT for Excel和Google Sheets正式发布。这个功能是在Excel和Google Sheets里加个侧边栏,让ChatGPT直接读写你的电子表格。 有两个概念值得注意:**技能(Skills)**是可复用的操作手册,教ChatGPT如何处理你这个组织的电子表格工作流、格式和审核步骤;**应用(Apps)**允许侧边栏连接外部数据源(比如金融数据、内部数据库),让推理基于正确的上下文,而不只是靠公式推理。 这个动作的信号很清晰:OpenAI不想让ChatGPT只是个”聊天框”,他们想让它嵌入到你的工作流里。Excel和Google Sheets是全世界上亿人的日常工具,把AI直接塞进去,比让你打开个网页聊天的使用频率高多了。 商业和企业版用户可以免费试用到2026年6月2日,之后就要按套餐积分配额计费了。这个时间节点卡得挺准,给你一个月时间尝鲜,然后就开始收费。 ### 记忆源(Memory Sources):个性化推荐背后的隐私陷阱 5月18-20日,记忆源功能向Plus和Pro用户的网页端开放。这个功能的核心是:当ChatGPT给你个性化回答时,你可以查看它引用了哪些来源——过往对话、保存的记忆、自定义指令、文件库中的文件、已连接的Gmail账户邮件。 每个来源都可以修正、删除或标记为”不相关”。共享对话不包含来源列表,所以共享边界处的隐私是受到保护的。 紧接着,Google日历集成也来了:连接日历后,ChatGPT可以起草会议议程、推送生日提醒、为即将到来的旅行推荐餐厅。 这里有一个明显的隐私权衡:你连接了Gmail或日历之后,其中的内容可能会在回答中露出来。如果你忘了已经连接了Gmail,然后问它”我们的Q2战略”,它可能会引用一封你早就忘了的邮件线程。建议定期去审计一下记忆源面板。 * * * ### GPT-5.6的影子:到底发没发布? 5月中旬,有用户发现Codex日志中短暂出现过`gpt-5.6`的部署映射条目,但很快就消失了,回滚成了`gpt-5.5`。这个现象符合后端金丝雀测试的特征:把少量生产流量路由到实验版本,测量性能和行为。 所以,GPT-5.6大概率是在开发中。Polymarket的交易者认为,2026年6月30日之前公开发布的概率是80-89%。但这是博彩市场的信号,不是厂商的承诺。 OpenAI目前没有发布GPT-5.6的模型卡、API端点、基准测试或者发布日期。所以如果你在规划Q3的路线图,建议先基于GPT-5.5开发,保持模型ID可配置,方便后续一行代码迁移。任何假设GPT-5.6六月发布的路线图,目前都只是押注,不是承诺。 ### 跟Claude Opus 4.7、Gemini 3.1 Pro比,GPT-5.5赢在哪? 2026年5月,这三款旗舰模型在Artificial Analysis智能指数上只相差约3分。差异化不再来自原始能力,而是各自的优势领域。 - **GPT-5.5**:在代理执行领域领先,Terminal-Bench得分82.7%(Opus 4.7是69.4%),OSWorld 78.7%。它有全新的Codex目标模式运行时和最深入的第一方工具集成。 - **Claude Opus 4.7**:SWE-bench Pro得分64.3%(GPT-5.5是58.6%),长文本事实性幻觉率36%(同基准下GPT-5.5是86%)。写作质量更优,更适合风险敏感的企业场景。 - **Gemini 3.1 Pro**:纯推理能力领先,GPQA Diamond 94.3%,ARC-AGI-2 77.1%,而且价格更低(输出约12美元每百万token,不到GPT-5.5或Opus 4.7的一半)。 选型建议挺直白:自主代理和Office嵌入工作流选GPT-5.5,代码审查和高信任长文本选Opus 4.7,成本敏感的大规模场景或多模态视频选Gemini 3.x。 ### 开发者这个月实际踩了哪些坑 文档是一回事,生产环境是另一回事。这个月开发者实际踩过的坑包括: - **Codex 40万 vs API 100万上下文不匹配**:给Codex喂接近API 100万限制的提示会报错”超出模型上下文窗口”。Codex内上限需控制在40万token。 - **推理token计费**:思考token按输出费率计费,不是单独的等级,而且计入上下文预算。需要谨慎设置`reasoning_effort`。 - **长文本幻觉**:GPT-5.5长文本事实性幻觉率86%,跟Opus 4.7的36%差距明显。无检索接地的情况下多段落事实生成,是这个模型的最大弱点。 - **Codex 0.134配置文件迁移**:旧配置文件会被拒绝,需要显式传入`--profile`或更新配置文件到新schema。 - **记忆源隐私**:如果连接了Gmail或日历但忘了,相关邮件内容会在上下文相关的回答中露出来。共享前务必审计记忆源面板。 ### 写在最后 OpenAI这波5月更新的核心逻辑,其实不是在比谁的模型更聪明,而是在布局”AI能不能真正替人干活”。GPT-5.5 Instant降低幻觉、Codex目标模式支持长时间自主运行、ChatGPT嵌入Excel和Google Sheets——这些都是在把AI从”聊天工具”推向”数字化员工”。 竞争对手也没闲着。Anthropic的Claude Opus 4.7在事实性和代码审查上仍有优势,Google的Gemini 3.5 Flash在成本和多模态上发力。这场AI战争,已经从”谁的模型分数高”转向”谁能真正嵌入到用户的工作流里”。 对于开发者来说,现在最务实的策略是:先基于GPT-5.5构建,但保持模型ID可配置。GPT-5.6大概率会在Q3发布,到那时候,一行代码就能切换过去。但在那之前,先把能用的功能用起来,比等着”下一代模型”更实际。 📎 原文来源:[Codersera – OpenAI May 2026 Updates: GPT-5.5 Instant, Codex, GPT-5.6](https://codersera.com/blog/openai-may-2026-updates-roundup/) **Tags:** AI, AI技术, ChatGPT, Codex, GPT-5.5 **Categories:** AI资讯 ---