通义大模型发布OmniAudio 可从 360° 视频生成空间音频

近日,通义实验室语音团队在空间音频生成领域取得里程碑式成果,推出OmniAudio技术,该技术可直接从360°视频生成FOA(First-order Ambisonics)音频,为虚拟现实和沉浸式娱乐带来全新可能。

空间音频作为一种模拟真实听觉环境的技术,能提升沉浸式体验,但现有技术大多基于固定视角视频,对360°全景视频空间信息利用不足。传统视频到音频生成技术主要生成非空间音频,无法满足沉浸式体验对3D声音定位需求,且多基于有限视角视频,错过全景视频丰富视觉上下文。随着360°摄像头普及和虚拟现实技术发展,利用全景视频生成匹配空间音频成为亟待解决的问题。

为应对挑战,通义实验室提出360V2SA(360-degree Video to Spatial Audio)任务。FOA是一种标准3D空间音频格式,用四个通道(W、X、Y、Z)表示声音,能捕捉声音方向性,实现真实3D音频再现,且在头部旋转时能保持声音定位准确性。

通义大模型发布OmniAudio 可从 360° 视频生成空间音频

数据是机器学习模型基石,但现有配对360°视频和空间音频数据稀缺。为此,研究团队精心构建Sphere360数据集,包含超过103,000个真实世界视频片段,涵盖288种音频事件,总时长288小时,既包含360°视觉内容,又支持FOA音频。在构建过程中,团队采用严格筛选和清洗标准,利用多种算法确保高质量对齐。

OmniAudio训练方法分两阶段。第一阶段为自监督的coarse-to-fine流匹配预训练,团队充分利用大规模非空间音频资源,将立体声转换为“伪FOA”格式后送入四通道VAE编码器获得潜在表示,再以一定概率进行随机时间窗掩码,将掩码后潜在序列与完整序列一同作为条件输入至流匹配模型,实现对音频时序和结构的自监督学习,使模型掌握通用音频特征和宏观时域规律。第二阶段为基于双分支视频表示的有监督微调,团队仅使用真实FOA音频数据,继续沿用掩码流匹配训练框架,强化模型对声源方向表征能力,提升对高保真空间音频细节重建效果。完成自监督预训练后,团队将模型与双分支视频编码器结合进行有监督微调,从噪声中有针对性地“雕刻”出符合视觉指示的FOA潜在轨迹,输出与360°视频高度对齐、具备精确方向感的四通道空间音频。

在实验设置中,研究团队在Sphere360-Bench和YT360-Test测试集上进行有监督微调与评估,采用客观和主观指标衡量生成音频质量。结果显示,OmniAudio在两套测试集上均显著优于所有基线。在YT360-Test上,OmniAudio在FD、KL和ΔAngular等指标上大幅降低;在Sphere360-Bench上同样取得优异成绩。在人机主观评估中,OmniAudio在空间音频质量和视音对齐两项上得分也远高于最优基线,体现出其合成结果在清晰度、空间感及与画面同步性方面均更佳。此外,消融实验验证了预训练策略、双分支设计和模型规模对性能提升的贡献。

项目主页

https://omniaudio-360v2sa.github.io/

代码和数据开源仓库

https://github.com/liuhuadai/OmniAudio

论文地址

https://arxiv.org/abs/2504.14906

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

Ollama v0.8发布!AI流式响应+实时搜索,本地模型也能秒变智能助手!

2025-5-29 17:30:28

AI新闻资讯

​Netflix 联合创始人 Reed Hastings 正式加入 Anthropic 董事会

2025-5-29 18:00:09

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索