前OpenAI CTO放大招：Thinking Machines实时交互模型200ms响应

前OpenAI CTO放了个大招

Mira Murati离开OpenAI自己创业才一年多，前几天直接把第一个模型甩了出来。不是那种传统的”你问一句我答一句”的回合制AI，而是真正能实时互动的交互模型。200毫秒的响应延迟，你随时可以插话打断，AI也能同时听、说、看、调用工具。

这套系统叫TML-Interaction-Small，采用的是2760亿参数的混合专家架构，每次推理只激活120亿参数。关键是它把前后台拆开了：前台专门维持对话流畅，200毫秒为一个时间片持续接收信息；后台负责复杂推理和工具调用，结果流式返回前台，不会打断你的说话节奏。

200毫秒是什么概念？人说话时自然的停顿间隔大约是200-300毫秒。也就是说，这个模型的响应速度已经接近人类对话的节奏了。

以前那些号称”实时”的语音AI，本质上都是把语音识别、语言模型、语音合成这几个模块拼在一起，中间靠外部工具协调。你说话的时候AI只能等着，说完一段它才开始处理，这就是典型的”回合制”。

Thinking Machines这套系统是原生实时交互，从架构层面就设计成可以交错处理音频、视频、文本的流数据。它用的编码方案也挺聪明：音频用dMel轻量编码，图像用hMLL编码，所有组件跟Transformer主干网络一起训练，不用单独的编码器拖慢速度。

在FD-Bench v1.5基准测试里，这个模型拿了77.8分。作为对比，OpenAI的GPT-Realtime-2和谷歌的Gemini 3.1 Flash Live都没超过它。响应延迟0.40秒，比GPT-Realtime-2快了大概4倍。

Murati这个人挺厉害的，在OpenAI当CTO的时候就是技术核心人物之一。她出来单干，投资人直接给了20亿美元种子轮，估值砸到120亿美元。团队里还有FAIR实验室的前研究员Piotr Dollar这种级别的人物。

算力方面也没拖后腿，跟英伟达、谷歌分别签了超过10亿美元的合作协议，拿到基于GB300芯片的超级计算资源。这种配置，基本上就是把”我要做顶级AI”写在脸上了。

团队自己说几个月里迭代了12个版本，训练日志写了137页。这种折腾劲，倒是很像早期OpenAI的风格。

现在大家用ChatGPT语音模式或者Alexa那种智能助手，体验上总感觉差了点什么。你不能在它说话的时候插话，它也不能在你还在想怎么表达的时候就开始回应。这种”半双工”的交互方式，本质上还是把AI当成一个高级搜索引擎来用。

Murati想做的，是让AI真正像一个人一样跟你对话。你可以随时打断，它可以同时处理多件事，后台在跑复杂推理的时候前台对话不受影响。这种体验，才是大家一直在说的”贾维斯”该有的样子。

当然现在这个模型还只是研究预览版，正式开放还要等几个月。但方向已经很明确了：AI交互的下一个战场，不是谁的模型参数更多，而是谁能真正做到”自然对话”。