### [NVIDIA Vera Rubin NVL72发布:推理成本暴降90%,Vera CPU亲自送货上门](https://www.willai.cc/article/230) **Published:** 2026-05-19T10:50:50 **Author:** hiyoho **Excerpt:** 如果你最近关注AI硬件圈,5月18日这天有个消息值得盯一下。NVIDIA CEO黄仁勋站在Dell Technologies World的舞台上,说了一句话:”需求正在抛物线式增长,完全是抛物线。”台下坐着的5000家企业代表应该都听懂了— 如果你最近关注AI硬件圈,5月18日这天有个消息值得盯一下。NVIDIA CEO黄仁勋站在Dell Technologies World的舞台上,说了一句话:”需求正在抛物线式增长,完全是抛物线。”台下坐着的5000家企业代表应该都听懂了——这里面包括礼来、三星、霍尼韦尔这些已经在用Dell AI Factory跑AI负载的公司。 这次发布的核心是两个东西:**Vera Rubin NVL72**架构,以及NVIDIA第一款专门为AI代理(Agent)设计的CPU——**Vera CPU**。别被名字搞混了,Rubin是GPU架构,Vera是CPU,俩搭配着用。 ### 推理成本直接砍掉90% Vera Rubin NVL72最吓人的数据是:**每token推理成本只有上一代Blackwell平台的1/10**。换句话说,原来跑100块钱的推理任务,现在只要10块。这个降幅不是靠砍性能换来的——Dell同步发布的PowerEdge XE9812服务器,用HGX Rubin NVL8架构,性能是上一代HGX B200的5.5倍。 > “67%的企业AI工作负载现在跑在云端之外——本地、设备端、边缘、托管机房,这才是真实的企业AI部署现状。”——NVIDIA CEO黄仁勋 88%的受访企业至少运行1个本地AI工作负载。这个数据背后有个很现实的原因:把数据搬来搬去的成本,比直接在企业自己机房里跑AI贵多了。Vera Rubin NVL72就是为这种场景设计的——专门优化长序列推理和高并发Agent任务。 ### Vera CPU:首款为AI代理设计的处理器 NVIDIA之前出过Grace CPU,但Vera是第一款明确为”AI代理时代”设计的CPU。这里的逻辑是:AI代理干活的时候,不是一口气跑完的,它要查数据库、跑代码、调工具,这些步骤是串行的,特别吃CPU的单线程性能和内存带宽。 Vera的三个关键数字: - 内存带宽1.2TB/s,是其他CPU的3倍 - AI代理工作负载完成速度比x86处理器快**50%** - 企业数据查询速度提升**3倍**(Starburst引擎吞吐量提升3倍) 第一批发货的Vera CPU已经送到三个地方:OpenAI在米申湾的办公室、SpaceX AI在帕洛阿尔托的实验室、以及Anthropic在旧金山的总部。下一批会送到甲骨文云基础设施在圣克拉拉的机房。NVIDIA超大规模计算副总裁Ian Buck亲自送货上门——这阵仗挺少见的,一般芯片发布都是发新闻稿,不会搞”ceo亲自交付”这套。 * * * ### 2030年的AI基础设施市场:3-4万亿美元 黄仁勋在台上给出了一个预测:2030年全球AI基础设施支出将达到3-4万亿美元,同期token消耗量预计增长3400%。这两个数字放在一起看就有意思了——基础设施投入增长,单位token成本下降,但总消耗量增长更快,所以市场总盘子还是在爆炸。 Dell AI Factory这边的策略是把”计算、网络、存储”打包成一个整体方案,客户不用自己拼组件。配套的还有NVIDIA机密计算(Confidential Computing)支持,模型权重和企业数据在运行过程中全程加密,这个对金融、医疗这些敏感行业挺重要的。 目前已经在Dell AI Factory上跑AI负载的5000家企业里,礼来用它加速药物研发,三星用它跑芯片设计仿真,霍尼韦尔把原来放在公有云上的工业AI迁移回了本地机房。这些案例的背后逻辑都一样:**数据搬不动,算力得靠近数据放**。 * * * ### 开源模型也在往这套基础设施上迁 NVIDIA在这次发布会上列了一个支持Dell AI Factory的开源模型清单:Nemotron、Reflection、MiniMax-M2.7、DeepSeek Pro、DeepSeek-V4、GLM 5.1、Kimi K2.6。这些模型都做了NVFP4精度优化,在Vera Rubin架构上跑起来更高效。 Hugging Face上已经开了Dell Enterprise Hub,企业可以直接拉取这些优化过的模型镜像部署。这个动作的信号很明确:NVIDIA不只是卖芯片,它在搭一个从芯片到模型到部署工具链的完整生态,让企业”买了硬件就能跑起来”,而不是买回去之后发现软件栈对不上。 下一波详细技术发布会在6月1-4日的COMPUTEX GTC Taipei大会上放出。如果你在关注AI推理成本这条曲线,Vera Rubin NVL72的价格和实测数据值得等一下那个发布会。 📎 原文来源:[NVIDIA Blog – Dell Technologies World 2026: Agentic AI Inference at 1/10th the Cost](https://blogs.nvidia.com/blog/dell-technologies-agent-enterprise-ai/) **Tags:** AI, 企业AI, 算力, 英伟达 **Categories:** AI资讯 ---