Gemini Omni实测：我把deepfake视频发给老公，他信了

去年我做过一个实验：用 Gemini 把我们家小孩的毛绒玩偶”deepfake”成去度假的样子，看看 Google 广告里演示的那些功能到底靠不靠谱。当时我就觉得，AI 生成视频的工具已经好到让人有点不安了。

一年过去，Google 推出了新的生成模型家族，叫 Omni。官方说法是，它终有一天能把任意类型的输入（照片、视频、文字）转换成任意类型的输出。当然目前第一步还是生成视频。第一个公开发布的版本叫 Omni Flash，已经上线 Google 的 AI 视频平台 Flow。

这次我请回了去年出镜的那只毛绒小鹿 Buddy，让它再跑一趟。给 Omni 的提示词是：”做一个蒙太奇，Buddy 打包行李准备登上邮轮去热带度假。氛围要可爱、好玩。Buddy 在行李箱里塞了件搞笑的东西，后面会在视频里用到。”

Omni 让 Buddy 塞了一罐蜂蜜进去。到了视频后面，Buddy 伸手去拿，拿的姿势像在拿防晒霜。”呃哦，”角色说了一句。

说实话（哦不行，我不能用这两个字），这段小幽默拍得还真不赖。但是——蜂蜜罐子在视频里一直在变：从玻璃罐，变成装水的透明挤压瓶，又变回装蜂蜜的挤压瓶。至于视频最后一帧那画面，我甚至不知道该怎么描述，就像模型把刚才生成的所有元素全吐出来堆在一起了。

Omni 生成视频的效果比5个月前我测 Veo 时要好，角色一致性提升了。但即使是最好的片段，也还是会有 AI 的”跳跃惊吓”——比如 Buddy 跳伞的时候突然整个朝向翻转了。

Omni 号称的强项之一，是能把 AI 生成的内容”贴”到真实视频上。于是我让 Buddy 休息，换自己上场。用一段面无表情的自拍视频当底子，让 Omni 生成我吃一盘意面、坐在飞机座位上、站在埃菲尔铁塔前咬一口法棍的视频。

结果让我有点措手不及。AI 告诉我的一些痕迹还是能看出来的：叉子碰碗的声音有点过于”制造”了；飞机视频背景里有个女性出现了两次（这显然不对）；埃菲尔铁塔那段，AI 版本的我把头发扎成了马尾——我平时根本不扎马尾。

但除了这些小毛病和一种说不清的”诡异感”，视频的逼真程度已经足够吓人。

我把吃意面的片段给我老公看了。他知道我在测 AI 视频工具，但我没告诉他画面里哪些部分是 AI 生成的。结果他没有看出来——他以为我就是对着一个摄像头在吃面，唯一觉得不对劲的地方是那个碗看着眼生。至于”吃面”这个动作本身，逼真到足以骗过跟我住了十年的人。

其他几个埃菲尔铁塔片段，有些看起来有点卡通，但其中有一个足够逼真，你可能要反复看几遍才能察觉是 AI 做的。我自己一看那个扎马尾的版本就知道不是我，但我不确定别人能不能看出来。这种感觉让我有点不舒服。

当然，这一切都不是免费的。生成视频要消耗积分，根据场景长度和输入素材不同，消耗 15 到 40 积分不等。单次编辑要消耗 40 积分。我现在用的是每月 20 美元的 AI Pro 套餐，每月有 1000 积分。测了大约 20 个片段、部分做了编辑之后，我剩 145 积分。

如果你对视频有比较具体的想法，可能要跟模型来回折腾不少次才能接近你想要的效果——每次编辑都要烧积分。

我们确实已经深陷”恐怖谷”了。

说句实话（唉），我有点累了。几年前第一次测 Veo 3 的时候，我被它生成的真实感震惊了。过去几年，我一次又一次被 AI 生成假人、假照片的容易程度震惊。按理说 Omni 也应该让我震惊才对——我想它确实让我震惊了，但那种冲击力已经钝了。

做出”以假乱真”的 AI 视频，还没有 Google 想让你相信的那么容易。但 Omni 确实在某些肉眼可见的维度上比 Veo 强。只要你有一个 Google 账号和一张信用卡，你就能拍一段自己坐在家里的视频，然后让它看起来像你正坐在飞往毛伊岛的航班上——付出的努力几乎可以忽略不计。

我们可能还没到 Hassabis 说的”奇点的山麓”那么夸张，但确实已经深陷恐怖谷之中了。

TradingAgents：用多智能体协作做金融交易决策，GitHub 7.3万星