暂无菜单项

英伟达Lyra 2.0:一张照片生成90米3D世界,具身智能有"健身房"了

发布于
1

4月16日,英伟达研究团队悄悄放了个大招:Lyra 2.0,一个能从单张照片生成大规模3D场景的系统。这东西的目标很明确——给具身智能(embodied AI)提供训练场,让机器人在虚拟世界里先练熟了,再到现实中干活。

你只需要喂给它一张图片,它就能给你生成一个纵深90米的连贯3D环境。这个距离什么概念?差不多一个足球场的长度。而且相机一路走一路拍,回来的时候场景还是你刚才看到的那个,不会突然变形或者裂开。

它解决了两个老大难问题

以前的3D生成模型有两个通病,英伟达这次都给治了。

第一个叫”空间遗忘”——相机绕着场景走一圈再回到原点,发现原来的地方已经不认识了,场景扭曲得像进了哈哈镜。Lyra 2.0的做法很直白:实时把每一帧的3D几何信息存下来,相机回到老地方的时候,直接调档案,保证看到的东西跟第一次看到的一样。

第二个问题更麻烦,叫误差累积——生成的帧数越多,前面犯的错会一直往后传,到最后整个场景崩掉。Lyra 2.0在训练的时候故意把一些有缺陷的输出喂给模型,让它学会自己纠正自己。这个思路有点像让模型”打草稿→检查→修改”,而不是一条路走到黑。

在图像质量、相机控制这两项核心指标上,Lyra 2.0干掉了GEN3C、Yume-1.5等6个同类型竞品。快速版本比基础版效率提升13倍。

跟机器人仿真平台打通了

这是Lyra 2.0最实用的地方。它跟英伟达自己的Isaac Sim(机器人仿真平台)无缝集成,生成的3D场景可以直接导出为网格模型,机器人就能在这个虚拟环境里训练算法。

以前要训练一个具身智能模型,你得派人拿着激光雷达和相机去现实世界扫一大堆3D数据,费时费力还贵。现在Lyra 2.0能自动生成多样化的训练场景,机器人先在虚拟世界里把活干熟练了,再到现实里上路。

目前它只支持静态场景生成,动态物体还没搞定。但光是静态场景这个突破,已经给自动驾驶、通用机器人的物理感知训练提供了不少帮助。

为什么这事值得关注

3D世界生成这个方向,本质上是给AI建”健身房”。大模型是靠海量文本数据喂出来的,具身智能要靠海量3D交互数据,而现实世界的数据采集成本太高了。

英伟达这步棋很精明——它不跟你卷大模型,它给你造训练大模型需要的”场地”。你用不用它的GPU跑模型另说,但你要想训练具身智能,它的仿真工具链几乎是绕不开的。

目前没有看到Lyra 2.0开源的消息,但英伟达过去在研究方向上有开放的传统,后续会不会放出来让社区用,值得盯着。


对于做具身智能的团队来说,这类工具的价值在于缩短迭代周期。以前一个场景要扫好几天,现在一张图几分钟出结果,测完不行马上改,迭代速度快了不止一个量级。

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600