Thinking Machines Lab发布实时交互模型：Mira Murati跳出OpenAI后的第一枪

Mira Murati沉默一年多后，交出了第一张答卷

前OpenAI首席技术官Mira Murati离开老东家快两年了。她创办的Thinking Machines Lab（TML）在2026年5月11日终于放出了第一个研究预览模型——TML-Interaction-Small。这不是又一个”我们有大模型要发布”的常规操作，而是一个直接挑战现有AI交互范式的新尝试。

Murati这个人的履历不需要太多介绍：OpenAI的GPT系列和Claude的竞速时代，她坐在CTO的位置上。2023年Altman被董事会开除那几天，她还短暂当过OpenAI的临时CEO。现在她带着一批OpenAI老部下另起炉灶，拿了两轮总共20多亿美元的融资，估值一度冲到500亿美元。

现有AI都说自己”实时”，但你说话的时候它还在等你停；TML想做的是你随时可以插话，它随时可以接话。

200毫秒的”微轮次”设计

目前的实时语音模型——包括OpenAI的GPT-Realtime和Google的Gemini Live——都有一个共同的设计妥协：它们依赖外挂的语音活动检测组件来判断”用户说完了没”，然后把完整输入传给模型，模型生成回复时感知会冻结。你说话的时候它听，它说话的时候你只能等。

TML的解法是”时间对齐微轮次”：以200毫秒为粒度，同时处理200ms输入、生成200ms输出，输入token流和输出token流在同一个时钟周期里交错运行。效果是你可以随时打断它，它也可以根据视觉信号无提示地响应——比如你指了指屏幕上的某个东西，它不需要你先说”看这个”就能接话。

Thinking Machines Lab交互模型示意图 — TML交互模型的工作机制示意图（来源：Unite.AI）

2760亿参数，但只激活120亿

首个公开亮相的模型TML-Interaction-Small采用MoE（混合专家）架构，总参数规模2760亿（276B），但每次推理只激活120亿（12B）参数。这个设计的目的很明确：在保持模型”脑子够用”的同时，把延迟压到200ms以内。

另一个有意思的设计是前后台拆分。前台（交互模型）负责低延迟实时交互，没有重型独立编码器：音频通过轻量嵌入层输入梅尔频谱特征，图像拆成40×40的patch，所有组件从零开始和Transformer共同训练。后台是独立的异步运行模型，负责深度推理、工具调用、网页浏览这些高负载任务，不占用前台交互的计算资源。

跟GPT-Realtime和Gemini Live比怎么样

TML自己跑了两个测试基准：FD-bench V1（轮次切换延迟）和FD-bench V1.5（交互质量，覆盖用户打断、反馈、背景语音等场景）。数据是他们自家报的，第三方还没验证，但数字差距确实不小：

轮次切换延迟：TML-Interaction-Small 0.40秒 vs GPT-Realtime-2.0（最小思考模式）1.18秒 vs Gemini 3.1 Flash Live（高思考模式）0.57秒
交互质量得分：TML 77.8 vs GPT-Realtime-2.0 46.8 vs Gemini 3.1 Flash Live 45.5

这个分数意味着什么，现在下结论还太早。FD-bench V1.5是TML自己推出的视觉交互测试集，目前还没有独立的baseline可以对照。而且200ms的延迟在实际网络环境下能不能稳住，也是个大问号。

钱和人的问题

TML的融资故事挺戏剧性的。2025年7月完成20亿美元种子轮，估值120亿美元，是当时有记录以来最大规模的种子轮。领投方是Andreessen Horowitz，参投方阵容豪华：英伟达、AMD、思科、Accel、ServiceNow、Jane Street都在列。但2025年底他们想再融一轮把估值推到500亿美元，没成。

人也在流失。2026年1月，联合创始人Barret Zoph和Luke Metz离职返回OpenAI，核心成员Andrew Tulloch被Meta超级智能实验室挖走。Meta累计从TML挖走了5名创始成员。Murati随后提拔PyTorch联合创始人Soumith Chintala担任公司CTO，算是一个信号：她需要更扎实的工程领袖来稳住局面。

算力方面，2026年3月跟英伟达达成了合作，英伟达将进行未披露金额的投资，并部署至少1GW的下一代Vera Rubin计算系统。同时也扩大了与谷歌云的合作，使用英伟达GB300硬件训练前沿模型。

接下来会怎样

目前模型没有向企业或公众开放。TML表示未来几个月会向选定合作伙伴开放有限研究预览，2026年晚些时候会扩大发布范围。他们还计划推出更大规模的交互模型——当前的276B版本是能满足延迟要求的最小变体，更大的版本在效果上会更好，但延迟能不能压住是未知数。

值得观察的问题有几个：长会话下的稳定性、弱网环境下的表现、实时安全拒答机制怎么设计。TML这次把”交互范式”这个根本问题拎出来打，勇气是有的，但能不能落地进生产环境，还需要等模型真正开放之后才知道。

📎 原文来源：Unite.AI – Thinking Machines Lab Ships First Model With 200ms Real-Time Interaction

Thinking Machines Lab发布实时交互模型：Mira Murati跳出OpenAI后的第一枪

Mira Murati沉默一年多后，交出了第一张答卷

200毫秒的”微轮次”设计

2760亿参数，但只激活120亿

跟GPT-Realtime和Gemini Live比怎么样

钱和人的问题

接下来会怎样

鱼眼视角高级时尚九宫格写真

Google DeepMind掏了1000万美元，研究AI Agent互相勾兑会出什么乱子

LangExtract：Google 出品的 LLM 结构化信息提取利器，精准溯源让 AI 抽取结果可验证

做人形机器人的Agility Robotics要上市了，估值25亿美元

2026年科技大裁员：AI成了最好的借口

page-agent：阿里巴巴出品的页面内JS GUI代理，一行脚本让网页拥有AI操控能力（23K+Stars）

高通想做下一个英伟达，先掏出了Dragonfly CPU

峡谷黄金时刻高角度俯拍女性