NVIDIA Vera Rubin NVL72发布：推理成本暴降90%，Vera CPU亲自送货上门

如果你最近关注AI硬件圈，5月18日这天有个消息值得盯一下。NVIDIA CEO黄仁勋站在Dell Technologies World的舞台上，说了一句话：”需求正在抛物线式增长，完全是抛物线。”台下坐着的5000家企业代表应该都听懂了——这里面包括礼来、三星、霍尼韦尔这些已经在用Dell AI Factory跑AI负载的公司。

这次发布的核心是两个东西：Vera Rubin NVL72架构，以及NVIDIA第一款专门为AI代理（Agent）设计的CPU——Vera CPU。别被名字搞混了，Rubin是GPU架构，Vera是CPU，俩搭配着用。

推理成本直接砍掉90%

Vera Rubin NVL72最吓人的数据是：每token推理成本只有上一代Blackwell平台的1/10。换句话说，原来跑100块钱的推理任务，现在只要10块。这个降幅不是靠砍性能换来的——Dell同步发布的PowerEdge XE9812服务器，用HGX Rubin NVL8架构，性能是上一代HGX B200的5.5倍。

“67%的企业AI工作负载现在跑在云端之外——本地、设备端、边缘、托管机房，这才是真实的企业AI部署现状。”——NVIDIA CEO黄仁勋

88%的受访企业至少运行1个本地AI工作负载。这个数据背后有个很现实的原因：把数据搬来搬去的成本，比直接在企业自己机房里跑AI贵多了。Vera Rubin NVL72就是为这种场景设计的——专门优化长序列推理和高并发Agent任务。

Vera CPU：首款为AI代理设计的处理器

NVIDIA之前出过Grace CPU，但Vera是第一款明确为”AI代理时代”设计的CPU。这里的逻辑是：AI代理干活的时候，不是一口气跑完的，它要查数据库、跑代码、调工具，这些步骤是串行的，特别吃CPU的单线程性能和内存带宽。

Vera的三个关键数字：

内存带宽1.2TB/s，是其他CPU的3倍
AI代理工作负载完成速度比x86处理器快50%
企业数据查询速度提升3倍（Starburst引擎吞吐量提升3倍）

第一批发货的Vera CPU已经送到三个地方：OpenAI在米申湾的办公室、SpaceX AI在帕洛阿尔托的实验室、以及Anthropic在旧金山的总部。下一批会送到甲骨文云基础设施在圣克拉拉的机房。NVIDIA超大规模计算副总裁Ian Buck亲自送货上门——这阵仗挺少见的，一般芯片发布都是发新闻稿，不会搞”ceo亲自交付”这套。

2030年的AI基础设施市场：3-4万亿美元

黄仁勋在台上给出了一个预测：2030年全球AI基础设施支出将达到3-4万亿美元，同期token消耗量预计增长3400%。这两个数字放在一起看就有意思了——基础设施投入增长，单位token成本下降，但总消耗量增长更快，所以市场总盘子还是在爆炸。

Dell AI Factory这边的策略是把”计算、网络、存储”打包成一个整体方案，客户不用自己拼组件。配套的还有NVIDIA机密计算（Confidential Computing）支持，模型权重和企业数据在运行过程中全程加密，这个对金融、医疗这些敏感行业挺重要的。

目前已经在Dell AI Factory上跑AI负载的5000家企业里，礼来用它加速药物研发，三星用它跑芯片设计仿真，霍尼韦尔把原来放在公有云上的工业AI迁移回了本地机房。这些案例的背后逻辑都一样：数据搬不动，算力得靠近数据放。

开源模型也在往这套基础设施上迁

NVIDIA在这次发布会上列了一个支持Dell AI Factory的开源模型清单：Nemotron、Reflection、MiniMax-M2.7、DeepSeek Pro、DeepSeek-V4、GLM 5.1、Kimi K2.6。这些模型都做了NVFP4精度优化，在Vera Rubin架构上跑起来更高效。

Hugging Face上已经开了Dell Enterprise Hub，企业可以直接拉取这些优化过的模型镜像部署。这个动作的信号很明确：NVIDIA不只是卖芯片，它在搭一个从芯片到模型到部署工具链的完整生态，让企业”买了硬件就能跑起来”，而不是买回去之后发现软件栈对不上。

下一波详细技术发布会在6月1-4日的COMPUTEX GTC Taipei大会上放出。如果你在关注AI推理成本这条曲线，Vera Rubin NVL72的价格和实测数据值得等一下那个发布会。

📎 原文来源：NVIDIA Blog – Dell Technologies World 2026: Agentic AI Inference at 1/10th the Cost

NVIDIA Vera Rubin NVL72发布：推理成本暴降90%，Vera CPU亲自送货上门

推理成本直接砍掉90%

Vera CPU：首款为AI代理设计的处理器

2030年的AI基础设施市场：3-4万亿美元

开源模型也在往这套基础设施上迁

鱼眼视角高级时尚九宫格写真

Google DeepMind掏了1000万美元，研究AI Agent互相勾兑会出什么乱子

LangExtract：Google 出品的 LLM 结构化信息提取利器，精准溯源让 AI 抽取结果可验证

做人形机器人的Agility Robotics要上市了，估值25亿美元

2026年科技大裁员：AI成了最好的借口

page-agent：阿里巴巴出品的页面内JS GUI代理，一行脚本让网页拥有AI操控能力（23K+Stars）

高通想做下一个英伟达，先掏出了Dragonfly CPU

峡谷黄金时刻高角度俯拍女性