ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

自 OpenAI 发布 Sora 以来,AI 视频生成技术进入快速爆发阶段。凭借扩散模型强大的生成能力,我们已经可以看到接近现实的视频生成效果。但在模型逼真度不断提升的同时,速度瓶颈却成为横亘在大规模应用道路上的最大障碍。

自 OpenAI 发布 Sora 以来,AI 视频生成技术进入快速爆发阶段。凭借扩散模型强大的生成能力,我们已经可以看到接近现实的视频生成效果。但在模型逼真度不断提升的同时,速度瓶颈却成为横亘在大规模应用道路上的最大障碍。

当前最好的视频生成模型 Wan 2.1、HunyuanVideo 等,在单张 H100 GPU 上生成一个 5 秒的 720p 视频往往需要耗时 30 分钟以上。主要瓶颈出现在 3D Full Attention 模块,约占总推理时间的 80% 以上。

为了解决这个问题,来自加州伯克利和 MIT 的研究者们提出了联合提出了一种新颖的解决方案:Sparse VideoGen。

ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

  • 论文标题:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
  • 论文链接:https://arxiv.org/abs/2502.01776
  • 代码:https://github.com/svg-project/Sparse-VideoGenn
  • 网页:https://svg-project.github.io/

这是一种完全无需重新训练模型的视频生成加速方法。通过挖掘注意力机制中的空间与时间稀疏性,配合自适应稀疏选择与算子优化,成功将推理时间减半。令人惊讶的是,它生成的视频与 Dense Attention 方法相比,几乎没有肉眼可见的差别,保持极高的像素保真度 (PSNR = 29)。Sparse VideoGen 也是第一个能够达到这种级别的像素保真度的方法。

目前,Sparse VideoGen 已经支持了 Wan 2.1, HunyuanVideo, CogVideoX 等多种 SOTA 开源模型,并且 T2V(文生视频),I2V(图生视频)都可以加速。他们的所有代码均已开源。该工作已经被 ICML 2025 录取。

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%

2025-5-9 8:53:29

AI新闻资讯

阿里开源大模型搜索引擎 ZeroSearch,大幅降低成本

2025-5-9 9:00:26

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索