Stability AI放大招：新音频模型能生成6分钟专业音乐，还把模型权重开源了

Stability AI这几天扔出了一个重磅消息——Stability Audio 3.0系列音频模型正式发布。如果你对这家公司的名字有点印象，没错，它就是Stable Diffusion的开发公司。

四款模型，两种策略

这次一口气发布了四款模型，参数规模从4.59亿到27亿不等。小模型可以在设备上直接跑，生成最长2分钟的音频内容。中型和大型模型更猛，能生成6分20秒的完整音乐作品，而且还能保持稳定的音乐结构和旋律基调。

生成时长是2024年发布的Stable Audio 2.0的两倍以上。要知道，2024年他们发布的Stable Audio Open只能生成最长47秒的音乐，这次算是一次大跨步的升级。

最有意思的是他们对不同模型的开放策略。两款小型模型（音效模型459M、音乐模型459M）和中型模型（1.4B）都以开放权重的形式发布，任何用户都可以免费使用、修改。但大型模型（2.7B）就没这么大方了，只通过API和付费自托管服务开放使用，而且年营收超过100万美元的企业还需要获取企业级授权才能用。

版权是生死线

训练数据是这套模型的一大卖点。Stability AI表示，本次最新发布的音频模型系列完全基于已获得授权的数据训练。这一点很重要，因为AI音乐生成这个赛道，版权问题一直是悬在头顶的达摩克利斯之剑。

去年Stability AI已经和华纳音乐集团、环球音乐集团达成合作，共同开发模型和音乐创作工具。和其他竞争对手比起来，这在版权合规性上确实更有底气。毕竟Suno和Udio相关的版权诉讼已经证明，数据授权以及与音乐厂牌的合作，将是这类服务长期生存的关键因素。

Stability Audio 3.0 模型对比图 — Stability Audio 3.0 四款模型参数对比（来源：Stability AI）

专业音乐人赛道开打

目前谷歌、ElevenLabs等多家公司都在推出音乐生成相关的模型和工具，赛道越来越挤。Stability AI这边也在为专业音乐人开发一套全新的产品，前Universal Audio和Fender首席数字官Ethan Kaplan已经加入公司，将负责Stability的专业音乐业务。

这个人事任命挺有意思。Ethan Kaplan在音乐硬件和软件领域都有很深的根基，他去Stability AI，说明这家公司不只是想做个”能生成音乐的AI玩具”，而是真的想往专业音乐制作流程里扎根。

最近不少AI公司都在通过聘请音乐行业高管来提升自身行业资质。今年早些时候Suno聘请前Merlin CEO Jeremy Sirota担任首席商务官，ElevenLabs也聘请独立音乐发行商Kobalt的Derek Cournoyer担任音乐业务战略负责人。

看起来，AI音乐生成赛道正在从”谁能生成好听的音乐”转向”谁能搞定版权、搞定音乐行业”。技术只是入场券，版权和行业资源才是长期竞争力的核心。

普通创作者能用上吗

对于普通创作者来说，Stability Audio 3.0的开源小模型是个好消息——你不需要花一分钱，就能在自己的设备上生成最长2分钟的音乐和音效。但如果你想用最好的大模型，或者你是年营收超过100万美元的企业，那就得按商业授权来了。

这套模型的发布，让AI音乐生成赛道的竞争从”谁的模型能生成更长的音乐”升级到了”谁的版权合规性更强、谁更懂专业音乐人的需求”。Stability AI这一步棋，下得挺聪明。

📎 原文来源：Stability AI releases a new audio model that can create six-minute songs — TechCrunch

Stability AI放大招：新音频模型能生成6分钟专业音乐，还把模型权重开源了

四款模型，两种策略

版权是生死线

专业音乐人赛道开打

普通创作者能用上吗

鱼眼视角高级时尚九宫格写真

Google DeepMind掏了1000万美元，研究AI Agent互相勾兑会出什么乱子

LangExtract：Google 出品的 LLM 结构化信息提取利器，精准溯源让 AI 抽取结果可验证

做人形机器人的Agility Robotics要上市了，估值25亿美元

2026年科技大裁员：AI成了最好的借口

page-agent：阿里巴巴出品的页面内JS GUI代理，一行脚本让网页拥有AI操控能力（23K+Stars）

高通想做下一个英伟达，先掏出了Dragonfly CPU

峡谷黄金时刻高角度俯拍女性