Google把20年街景数据喂给了Genie，AI现在能模拟你家门口的街道了

你有没有在Google Maps的街景里「逛」过别人的 neighborhood？把那个小黄人往巴黎某条街上一扔，看看酒店是不是在安全的地段。Google现在想把这件事变得不止是「看看」，而是让你真正走进去、改天气、看暴风雪里的同一条街是什么样子。

5月19日的Google I/O大会上，DeepMind宣布把Street View的数据接入Project Genie——Google的通用世界模型。简单来说，Genie可以根据文字或图片提示，生成可交互的游戏式三维环境。现在加上街景，它生成的就是真实世界的地方。

DeepMind研究员Jack Parker-Holder举了一个很具体的例子：一个即将部署到伦敦的机器人，那边常年见不到什么太阳。用Genie，他们可以模拟阳光从维多利亚式房屋上反射下来的罕见场景，这样机器人真的遇到时就不会「懵掉」。

「你可以说，我要去纽约，但不是这个季节，是下雪的时候。我想看看那条街在下雪时是什么样子。」

街景数据积累，Google干了20年。背着摄像头的小车和塞了相机的背包，在全球110个国家和七大洲拍了超过2800亿张图片。这些数据的价值，过去主要体现在地图产品和广告上，现在DeepMind找到了新用法。

Genie 3去年8月开放了研究预览，今年1月向美国的Google AI Ultra订阅用户开放。它的目标应用场景有三个：教育、游戏、机器人训练。接上街景之后，机器人训练这个场景立刻变得很实。

Waymo已经在用Genie的模拟器来训练无人驾驶汽车应对「极罕见事件」——比如龙卷风，或者一头大象突然出现在路上。以前这种场景只能靠人工合成，现在有了街景作为基底，模拟出来的环境至少地理位置是真实的。

和Waymo自己的模拟器相比，Genie的优势在于视角。Waymo的模拟都是从车载摄像头角度看的，而街景数据可以切换到任意视角——机器人视角、行人视角、甚至无人机视角。

坦率说，现在的效果还没到「以假乱真」的程度。Google团队给我看的样片，包括我以前住过的一个街区的海底版本，识别度很高，但画质还是电子游戏水准，不是照片级真实。

更大的问题是物理规律。现在的Genie模型还没有真正理解因果关系——比如在一个约书亚树国家公园的雪地场景模拟里，跑过去的人直接穿过了仙人掌和灌木丛。物理规则不是硬编码进去的，模型是通过被动观察自己「悟」出来的，这个过程还需要时间。

「这类模型在准确度和质量上，可能比视频生成落后6到12个月。但我认为这是可以解决的。」——Jack Parker-Holder

对比一下，Google自己的图像生成器Nano Banana已经能在信息图里生成完美的文字，视频生成器Veo也理解了纸船会跟着水流漂、烟会在空气中散开这些物理常识。Genie要追上这个水平，还得再跑一阵。

目前，Street View in Genie已经向部分美国Ultra用户开放，接下来几周会逐步扩展到全球Ultra用户。DeepMind的产品经理Diego Rivas提醒说，这还是一个实验性的东西，准确度方面还有很多要改进的地方。

但方向是清晰的。Google Maps的前总监Jonathan Herbert说，他们很早就在想怎么把地图数据用在新形式的AI研究上。Genie接入街景，是这个世界模型第一次真正摸到「真实世界的地基」。接下来会发生什么，值得盯着看。

鱼眼视角高级时尚九宫格写真