英伟达Lyra 2.0：一张照片生成90米3D世界，具身智能有”健身房”了

4月16日，英伟达研究团队悄悄放了个大招：Lyra 2.0，一个能从单张照片生成大规模3D场景的系统。这东西的目标很明确——给具身智能（embodied AI）提供训练场，让机器人在虚拟世界里先练熟了，再到现实中干活。

你只需要喂给它一张图片，它就能给你生成一个纵深90米的连贯3D环境。这个距离什么概念？差不多一个足球场的长度。而且相机一路走一路拍，回来的时候场景还是你刚才看到的那个，不会突然变形或者裂开。

以前的3D生成模型有两个通病，英伟达这次都给治了。

第一个叫”空间遗忘”——相机绕着场景走一圈再回到原点，发现原来的地方已经不认识了，场景扭曲得像进了哈哈镜。Lyra 2.0的做法很直白：实时把每一帧的3D几何信息存下来，相机回到老地方的时候，直接调档案，保证看到的东西跟第一次看到的一样。

第二个问题更麻烦，叫误差累积——生成的帧数越多，前面犯的错会一直往后传，到最后整个场景崩掉。Lyra 2.0在训练的时候故意把一些有缺陷的输出喂给模型，让它学会自己纠正自己。这个思路有点像让模型”打草稿→检查→修改”，而不是一条路走到黑。

在图像质量、相机控制这两项核心指标上，Lyra 2.0干掉了GEN3C、Yume-1.5等6个同类型竞品。快速版本比基础版效率提升13倍。

这是Lyra 2.0最实用的地方。它跟英伟达自己的Isaac Sim（机器人仿真平台）无缝集成，生成的3D场景可以直接导出为网格模型，机器人就能在这个虚拟环境里训练算法。

以前要训练一个具身智能模型，你得派人拿着激光雷达和相机去现实世界扫一大堆3D数据，费时费力还贵。现在Lyra 2.0能自动生成多样化的训练场景，机器人先在虚拟世界里把活干熟练了，再到现实里上路。

目前它只支持静态场景生成，动态物体还没搞定。但光是静态场景这个突破，已经给自动驾驶、通用机器人的物理感知训练提供了不少帮助。

3D世界生成这个方向，本质上是给AI建”健身房”。大模型是靠海量文本数据喂出来的，具身智能要靠海量3D交互数据，而现实世界的数据采集成本太高了。

英伟达这步棋很精明——它不跟你卷大模型，它给你造训练大模型需要的”场地”。你用不用它的GPU跑模型另说，但你要想训练具身智能，它的仿真工具链几乎是绕不开的。

目前没有看到Lyra 2.0开源的消息，但英伟达过去在研究方向上有开放的传统，后续会不会放出来让社区用，值得盯着。

对于做具身智能的团队来说，这类工具的价值在于缩短迭代周期。以前一个场景要扫好几天，现在一张图几分钟出结果，测完不行马上改，迭代速度快了不止一个量级。

英伟达Lyra 2.0：一张照片生成90米3D世界，具身智能有"健身房"了