### [ChatGPT语音模式被曝用旧模型，付费用户骂了半年才知道](https://www.willai.cc/article/817)

**Published:** 2026-05-28T13:18:36

**Author:** hiyoho

**Excerpt:** ChatGPT语音模式被曝用旧模型，付费用户骂了半年才知道 ChatGPT语音模式被曝用旧模型，付费用户骂了半年才知道 Andrej Karpathy前几天在推特上扔了个炸弹：ChatGPT的语音模式，跑的是GPT-4o时代的模型，知识截止

  
  

  
  
ChatGPT语音模式被曝用旧模型，付费用户骂了半年才知道  
  

# ChatGPT语音模式被曝用旧模型，付费用户骂了半年才知道

Andrej Karpathy前几天在推特上扔了个炸弹：ChatGPT的语音模式，跑的是GPT-4o时代的模型，知识截止日期停在2024年4月。也就是说，过去一年AI领域发生的大部分事情，你的语音助手是一概不知的。

Simon Willison把这个发现整理成了博客文章，然后整个开发者社区就炸了。你每月付200美元买ChatGPT Pro，期待的是最前沿的模型能力——结果你的语音助手连2024年4月之后的世界都不知道。这不是”略有差距”，是13个月的技术代差。

> Karpathy的观察很直接：”ChatGPT语音使用的模型知识截止日期为2024年4月，这基本上是在过去一年AI领域发生的一切之前。”如果你付钱买的是”最新AI能力”，语音模式却给你一个2024年的模型，这个gap很难用”技术限制”完全解释。

### 为什么OpenAI不直接用最新模型跑语音

OpenAI还没有正式回应这个争议，但技术上的约束是真实的。实时语音需要很低的延迟——你说话，AI要几乎同时回应，不能有长时间的”思考”过程。当前的前沿模型（GPT-5.5级别）在做低延迟实时推理的时候，成本和技术难度都比上一代模型高得多。

这个解释有一定道理，但问题是：OpenAI有没有把这件事清楚地告诉付费用户？如果你每月付200美元买Pro订阅，你大概会默认所有模态（文字、图片、语音、代码）都使用同等水平的模型。如果语音模式用的是上一代模型，这个信息不对称持续了半年多，那就是产品透明度的问题，而不只是技术限制了。

### 竞争对手没睡觉

这个争议最大的影响可能不是OpenAI的技术路线，而是竞争对手的行动。谷歌的Gemini Live语音模式，用的是Gemini 3.5 Flash——这是谷歌当前最新一代的模型。也就是说，如果你用Gemini Advanced的语音模式，你拿到的是和文字界面同等水平的模型能力。

这个对比对用户来说是很直观的：同样说一句话，Gemini Live能理解2025年的事件，ChatGPT Voice不知道。OpenAI在模型能力上领先了三年，但在产品透明度上给了竞争对手一个可乘之机。

* * *

### 这不是第一次了

回顾一下OpenAI过去一年的产品发布节奏，类似的情况其实出现过好几次。2025年底推出的”高级语音模式”（Advanced Voice Mode）本来被期待能缩小这个差距，但开发者的反馈是：并没有。模型能力确实比GPT-4o时代强了一些，但和文字界面的GPT-5.5比，差距仍然是显著的。

更深层的问题是：当AI公司的产品有文字、语音、图片、代码等多个模态的时候，用户有没有权利期待”同等水平的模型能力”？还是说，每个模态都是独立的产品，用户需要分别判断值不值得付钱？这个问题没有标准答案，但OpenAI作为行业领头羊，在透明度上确实可以做得更好。

### 普通用户该怎么看这件事

如果你在用ChatGPT的语音模式，而且发现它经常”不知道最近发生的事情”——现在你知道原因了。不是你用得不对，是它确实不知道。如果你在乎这个，可以试试Gemini Live，或者干脆回到文字界面。

对行业来说，这个事件提醒了一件被忽略的事：AI竞赛不只是”谁的模型分数更高”，也是”谁把产品透明度做得更好”。用户愿意为AI付钱，但他们需要知道自己在为什么付钱。

* * *

📎 原文来源：[Simon Willison’s Weblog – ChatGPT voice mode model analysis](https://simonwillison.net/)

**Tags:** AI, AI伦理, AI技术, ChatGPT, OpenAI

**Categories:** AI资讯

---