暂无菜单项

NVIDIA Vera Rubin NVL72发布:推理成本暴降90%,Vera CPU亲自送货上门

发布于
1

如果你最近关注AI硬件圈,5月18日这天有个消息值得盯一下。NVIDIA CEO黄仁勋站在Dell Technologies World的舞台上,说了一句话:”需求正在抛物线式增长,完全是抛物线。”台下坐着的5000家企业代表应该都听懂了——这里面包括礼来、三星、霍尼韦尔这些已经在用Dell AI Factory跑AI负载的公司。

这次发布的核心是两个东西:Vera Rubin NVL72架构,以及NVIDIA第一款专门为AI代理(Agent)设计的CPU——Vera CPU。别被名字搞混了,Rubin是GPU架构,Vera是CPU,俩搭配着用。

推理成本直接砍掉90%

Vera Rubin NVL72最吓人的数据是:每token推理成本只有上一代Blackwell平台的1/10。换句话说,原来跑100块钱的推理任务,现在只要10块。这个降幅不是靠砍性能换来的——Dell同步发布的PowerEdge XE9812服务器,用HGX Rubin NVL8架构,性能是上一代HGX B200的5.5倍。

“67%的企业AI工作负载现在跑在云端之外——本地、设备端、边缘、托管机房,这才是真实的企业AI部署现状。”——NVIDIA CEO黄仁勋

88%的受访企业至少运行1个本地AI工作负载。这个数据背后有个很现实的原因:把数据搬来搬去的成本,比直接在企业自己机房里跑AI贵多了。Vera Rubin NVL72就是为这种场景设计的——专门优化长序列推理和高并发Agent任务。

Vera CPU:首款为AI代理设计的处理器

NVIDIA之前出过Grace CPU,但Vera是第一款明确为”AI代理时代”设计的CPU。这里的逻辑是:AI代理干活的时候,不是一口气跑完的,它要查数据库、跑代码、调工具,这些步骤是串行的,特别吃CPU的单线程性能和内存带宽。

Vera的三个关键数字:

  • 内存带宽1.2TB/s,是其他CPU的3倍
  • AI代理工作负载完成速度比x86处理器快50%
  • 企业数据查询速度提升3倍(Starburst引擎吞吐量提升3倍)

第一批发货的Vera CPU已经送到三个地方:OpenAI在米申湾的办公室、SpaceX AI在帕洛阿尔托的实验室、以及Anthropic在旧金山的总部。下一批会送到甲骨文云基础设施在圣克拉拉的机房。NVIDIA超大规模计算副总裁Ian Buck亲自送货上门——这阵仗挺少见的,一般芯片发布都是发新闻稿,不会搞”ceo亲自交付”这套。


2030年的AI基础设施市场:3-4万亿美元

黄仁勋在台上给出了一个预测:2030年全球AI基础设施支出将达到3-4万亿美元,同期token消耗量预计增长3400%。这两个数字放在一起看就有意思了——基础设施投入增长,单位token成本下降,但总消耗量增长更快,所以市场总盘子还是在爆炸。

Dell AI Factory这边的策略是把”计算、网络、存储”打包成一个整体方案,客户不用自己拼组件。配套的还有NVIDIA机密计算(Confidential Computing)支持,模型权重和企业数据在运行过程中全程加密,这个对金融、医疗这些敏感行业挺重要的。

目前已经在Dell AI Factory上跑AI负载的5000家企业里,礼来用它加速药物研发,三星用它跑芯片设计仿真,霍尼韦尔把原来放在公有云上的工业AI迁移回了本地机房。这些案例的背后逻辑都一样:数据搬不动,算力得靠近数据放


开源模型也在往这套基础设施上迁

NVIDIA在这次发布会上列了一个支持Dell AI Factory的开源模型清单:Nemotron、Reflection、MiniMax-M2.7、DeepSeek Pro、DeepSeek-V4、GLM 5.1、Kimi K2.6。这些模型都做了NVFP4精度优化,在Vera Rubin架构上跑起来更高效。

Hugging Face上已经开了Dell Enterprise Hub,企业可以直接拉取这些优化过的模型镜像部署。这个动作的信号很明确:NVIDIA不只是卖芯片,它在搭一个从芯片到模型到部署工具链的完整生态,让企业”买了硬件就能跑起来”,而不是买回去之后发现软件栈对不上。

下一波详细技术发布会在6月1-4日的COMPUTEX GTC Taipei大会上放出。如果你在关注AI推理成本这条曲线,Vera Rubin NVL72的价格和实测数据值得等一下那个发布会。

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600