OpenAI连发三个语音模型,这次不只是”能说话”
5月7日凌晨,OpenAI一口气发了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方说法是让开发者能构建”在用户说话时推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试了。
这次更新的重点在于”分工”。三款模型各管一摊事:GPT-Realtime-2管实时语音Agent,GPT-Realtime-Translate管实时翻译,GPT-Realtime-Whisper管实时转写。这个打法很OpenAI——不只要做最好的单一模型,还要把整个语音AI的赛道拆成几块,各自做到极致。
GPT-Realtime-2:从”能说”到”会说”
GPT-Realtime-2是这次更新的主角。OpenAI官方的说法是,这是第一款具备”GPT-5级推理”的语音模型。这个模型被设计来处理复杂请求、调用工具、处理对话中的打断,还能在更长的语音会话里保持上下文。
这些能力对应的都是语音Agent落地时最头疼的问题。比如一个用户想咨询买房的事,或者想改签机票,这些场景都可能包含一大堆条件和多轮确认。上下文窗口从32K提升到128K之后,模型可以在更长的实时对话里保留前面出现过的信息,不会聊到一半把前面说的话忘了。
GPT-Realtime-2在Big Bench Audio测试上比上一代GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。这两个指标衡量的是模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。
还有一个很实用的细节:可调推理强度。你可以根据场景选择用多少算力。多数生产场景可以先使用较低的推理强度,优先保证通话里的响应速度;遇到更复杂的客服、预订、排障任务,再提高推理强度,用更多计算换取更完整的判断。这个设计很接地气——语音交互最怕的就是卡顿,用户在电话里等一两秒就会觉得”这AI不行”。
已经有企业在用了,效果还不错
OpenAI公布了几个已经在测试的企业用户:美国房地产网站Zillow、旅游预订平台Priceline、德国电信。这些都不是小打小闹的Demo,而是真实业务场景。
Zillow在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。他们说,在最困难的对抗性测试中,经过prompt优化后,电话任务成功率从69%提升到95%。这个提升幅度很夸张,但也说明语音Agent在垂直场景里确实能干活了。
Priceline的用例更典型:旅游预订链条很长,用户可能要查航班、订酒店、调整日期、处理延误、比较价格,还可能在境外需要翻译。语音Agent如果能稳定接入后台系统,就有机会把”问答”推进到”办事”。这个跨越才是语音AI真正有价值的地方。
另外两款模型:翻译和转写
GPT-Realtime-Translate主打实时语音到语音翻译,支持70多种输入语言到13种输出语言。传统语音翻译常常要求说话人停顿,系统等一句话结束后再翻译;而GPT-Realtime-Translate更接近连续口译的形态,说话人讲话时它就能跟上节奏。
GPT-Realtime-Whisper则强调实时流式转写,可以在说话人讲话时生成字幕、会议记录和工作流更新。它的价格最便宜,只有0.017美元/分钟。
三款模型放在一起看,OpenAI已经把实时音频拆成了三个明确入口,价格和延迟要求各不相同。奥特曼想要的可能是”通吃”——不管你要做语音客服、跨语言会议还是实时字幕,都得用我的API。
语音AI这波竞争,正在从”像人”变成”能办事”
这个市场里已经有一堆强势玩家了。ElevenLabs今年2月完成5亿美元D轮融资,估值110亿美元;Deepgram今年1月完成1.3亿美元融资,估值13亿美元,服务1300多家客户;Cartesia的Sonic 3模型已经有1万多客户使用,主打90毫秒低延迟。
OpenAI的优势在于模型栈——它可以把整个企业调用TTS的链路放在同一个开发者平台里。对开发者来说,少接几个供应商,就少一些延迟、集成和运维成本。但语音市场并不好啃,每家都有自己的地盘和忠实客户。
从目前企业用户的测试反馈来看,GPT-Realtime-2确实在某些场景里把语音Agent的完成率拉到了一个可用的水平。但这波”从对话走向执行”的转型能不能真正跑通,可能还得看接下来半年这些早期客户的真实业务数据。
