### [ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道](https://www.willai.cc/article/817) **Published:** 2026-05-28T13:18:36 **Author:** hiyoho **Excerpt:** ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道 ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道 Andrej Karpathy前几天在推特上扔了个炸弹:ChatGPT的语音模式,跑的是GPT-4o时代的模型,知识截止 ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道 # ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道 Andrej Karpathy前几天在推特上扔了个炸弹:ChatGPT的语音模式,跑的是GPT-4o时代的模型,知识截止日期停在2024年4月。也就是说,过去一年AI领域发生的大部分事情,你的语音助手是一概不知的。 Simon Willison把这个发现整理成了博客文章,然后整个开发者社区就炸了。你每月付200美元买ChatGPT Pro,期待的是最前沿的模型能力——结果你的语音助手连2024年4月之后的世界都不知道。这不是”略有差距”,是13个月的技术代差。 > Karpathy的观察很直接:”ChatGPT语音使用的模型知识截止日期为2024年4月,这基本上是在过去一年AI领域发生的一切之前。”如果你付钱买的是”最新AI能力”,语音模式却给你一个2024年的模型,这个gap很难用”技术限制”完全解释。 ### 为什么OpenAI不直接用最新模型跑语音 OpenAI还没有正式回应这个争议,但技术上的约束是真实的。实时语音需要很低的延迟——你说话,AI要几乎同时回应,不能有长时间的”思考”过程。当前的前沿模型(GPT-5.5级别)在做低延迟实时推理的时候,成本和技术难度都比上一代模型高得多。 这个解释有一定道理,但问题是:OpenAI有没有把这件事清楚地告诉付费用户?如果你每月付200美元买Pro订阅,你大概会默认所有模态(文字、图片、语音、代码)都使用同等水平的模型。如果语音模式用的是上一代模型,这个信息不对称持续了半年多,那就是产品透明度的问题,而不只是技术限制了。 ### 竞争对手没睡觉 这个争议最大的影响可能不是OpenAI的技术路线,而是竞争对手的行动。谷歌的Gemini Live语音模式,用的是Gemini 3.5 Flash——这是谷歌当前最新一代的模型。也就是说,如果你用Gemini Advanced的语音模式,你拿到的是和文字界面同等水平的模型能力。 这个对比对用户来说是很直观的:同样说一句话,Gemini Live能理解2025年的事件,ChatGPT Voice不知道。OpenAI在模型能力上领先了三年,但在产品透明度上给了竞争对手一个可乘之机。 * * * ### 这不是第一次了 回顾一下OpenAI过去一年的产品发布节奏,类似的情况其实出现过好几次。2025年底推出的”高级语音模式”(Advanced Voice Mode)本来被期待能缩小这个差距,但开发者的反馈是:并没有。模型能力确实比GPT-4o时代强了一些,但和文字界面的GPT-5.5比,差距仍然是显著的。 更深层的问题是:当AI公司的产品有文字、语音、图片、代码等多个模态的时候,用户有没有权利期待”同等水平的模型能力”?还是说,每个模态都是独立的产品,用户需要分别判断值不值得付钱?这个问题没有标准答案,但OpenAI作为行业领头羊,在透明度上确实可以做得更好。 ### 普通用户该怎么看这件事 如果你在用ChatGPT的语音模式,而且发现它经常”不知道最近发生的事情”——现在你知道原因了。不是你用得不对,是它确实不知道。如果你在乎这个,可以试试Gemini Live,或者干脆回到文字界面。 对行业来说,这个事件提醒了一件被忽略的事:AI竞赛不只是”谁的模型分数更高”,也是”谁把产品透明度做得更好”。用户愿意为AI付钱,但他们需要知道自己在为什么付钱。 * * * 📎 原文来源:[Simon Willison’s Weblog – ChatGPT voice mode model analysis](https://simonwillison.net/) **Tags:** AI, AI伦理, AI技术, ChatGPT, OpenAI **Categories:** AI资讯 ---