SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而,我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如,在拍摄赛车追逐的场景时,镜头通常跟随赛车运动,并通过扣人心弦的超车时刻来展示赛事的白热化。而如今的视频生成模型无法实现 3D 场景中目标、相机联合控制的文本到视频创作,限制了 AI 影视制作的能力。

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而,我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如,在拍摄赛车追逐的场景时,镜头通常跟随赛车运动,并通过扣人心弦的超车时刻来展示赛事的白热化。而如今的视频生成模型无法实现 3D 场景中目标、相机联合控制的文本到视频创作,限制了 AI 影视制作的能力。

近期,可灵研究团队在「3D 感知可控视频生成」领域做出了首次尝试,推出了电影级文本到视频生成框架 CineMaster,允许用户在提供全局文本描述的基础上,通过提出的交互式工作流辅助用户像专业导演一样布置场景,设定目标与相机的运动,指导模型生成用户想要的视频内容。目前该论文已录用于 SIGGRAPH 2025。

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

  • 论文标题:CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
  • 论文地址:https://arxiv.org/abs/2502.08639
  • 项目主页:https://cinemaster-dev.github.io/

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化

2025-5-12 10:45:06

AI新闻资讯

清华系创业团队“灵御智能”融资千万,聚焦人机混合智能

2025-5-12 11:00:05

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索