英伟达2.6B小模型跑赢行业巨兽：单卡生成1分钟720p视频的世界模型来了

前两天NVIDIA的NVLabs悄悄丢了个炸弹——SANA-WM，一个只有2.6B参数的开源世界模型，能在一块H100上生成720p、1分钟长的可控视频。你没有看错，一块卡，一分钟。

SANA-WM吞吐量比开源基线高36倍，动作跟随准确率超过所有现有开源方案，视觉质量却跟大规模工业模型差不多。

做长视频生成最头疼的问题就是显存爆炸。标准DiT用的Softmax Attention是O(n²)复杂度，生成60秒视频（约1800帧）时，纯Softmax方案大概跑到15秒就OOM了。

SANA-WM的解法很巧妙——混合线性注意力。帧与帧之间用Gated DeltaNet做线性依赖（O(n)复杂度），每隔几帧再插一次Softmax Attention保长程一致性。这样既控制了显存，又没丢掉全局关联。效果就是：别人OOM的时候，它还在稳稳生成。

世界模型跟普通文生视频最大的区别在于可控性。SANA-WM支持6自由度（6-DoF）相机轨迹控制，输入一张静态图+相机运动路径，就能生成对应的漫游视频。它用双分支架构：粗粒度全局位姿分支理解相机大致走向，细粒度像素对齐几何分支精确到像素级的几何变化。这让生成的视频不只是像，而是准。

生成流程分两步：2.6B基础模型先出60秒原始视频，再由17B精炼网络提升纹理和运动质量。有意思的是训练效率——只用了21.3万条公开视频片段（带6-DoF标注），64张H100跑15天就完事。对比同行动辄256+卡跑几个月，这个数据效率相当亮眼。

Sora、Kling这些文生视频模型走的是文字驱动路线，控制力偏弱；SANA-WM这类世界模型走的是图像+轨迹驱动路线，控制力强、物理合理性高。说白了，文生视频像是给AI一段描述让它自由发挥，世界模型像是给AI一张照片和运动指令让它精确执行。

应用场景也很明确：自动驾驶仿真、机器人训练、游戏内容生成、影视预可视化、建筑漫游……任何需要如果相机这样动，世界会怎样的场景，都是世界模型的主场。

2.6B参数就能做到这个程度，开源社区该兴奋了。代码已在GitHub放出（NVlabs/Sana-WM），权重按CC BY-NC-SA 4.0许可即将发布。

鱼眼视角高级时尚九宫格写真