SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster！

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而，我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如，在拍摄赛车追逐的场景时，镜头通常跟随赛车运动，并通过扣人心弦的超车时刻来展示赛事的白热化。而如今的视频生成模型无法实现 3D 场景中目标、相机联合控制的文本到视频创作，限制了 AI 影视制作的能力。

近期，可灵研究团队在「3D 感知可控视频生成」领域做出了首次尝试，推出了电影级文本到视频生成框架 CineMaster，允许用户在提供全局文本描述的基础上，通过提出的交互式工作流辅助用户像专业导演一样布置场景，设定目标与相机的运动，指导模型生成用户想要的视频内容。目前该论文已录用于 SIGGRAPH 2025。

论文标题：CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
论文地址：https://arxiv.org/abs/2502.08639
项目主页：https://cinemaster-dev.github.io/

{{userData.name}}已认证

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster！

多模态=AGI入场券？阶跃星辰姜大昕：死磕基座大模型，探索多模态理解生成一体化

清华系创业团队“灵御智能”融资千万，聚焦人机混合智能

如何使用即梦3.0模型？

AI写作-DeepSeek虚拟伴侣指令之AI男友角色设定

AI绘画-即梦ai智能参考功能实测

豆包 1.5 · 深度思考模型上线边缘大模型网关可免费领百万Tokens

AI变天！HeyGen发布“有灵魂”的数字人Avatar IV 一张照片秒变“戏精”数字人，表情比真人还细腻

ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」