Stability AI这几天扔出了一个重磅消息——Stability Audio 3.0系列音频模型正式发布。如果你对这家公司的名字有点印象,没错,它就是Stable Diffusion的开发公司。
四款模型,两种策略
这次一口气发布了四款模型,参数规模从4.59亿到27亿不等。小模型可以在设备上直接跑,生成最长2分钟的音频内容。中型和大型模型更猛,能生成6分20秒的完整音乐作品,而且还能保持稳定的音乐结构和旋律基调。
生成时长是2024年发布的Stable Audio 2.0的两倍以上。要知道,2024年他们发布的Stable Audio Open只能生成最长47秒的音乐,这次算是一次大跨步的升级。
最有意思的是他们对不同模型的开放策略。两款小型模型(音效模型459M、音乐模型459M)和中型模型(1.4B)都以开放权重的形式发布,任何用户都可以免费使用、修改。但大型模型(2.7B)就没这么大方了,只通过API和付费自托管服务开放使用,而且年营收超过100万美元的企业还需要获取企业级授权才能用。
版权是生死线
训练数据是这套模型的一大卖点。Stability AI表示,本次最新发布的音频模型系列完全基于已获得授权的数据训练。这一点很重要,因为AI音乐生成这个赛道,版权问题一直是悬在头顶的达摩克利斯之剑。
去年Stability AI已经和华纳音乐集团、环球音乐集团达成合作,共同开发模型和音乐创作工具。和其他竞争对手比起来,这在版权合规性上确实更有底气。毕竟Suno和Udio相关的版权诉讼已经证明,数据授权以及与音乐厂牌的合作,将是这类服务长期生存的关键因素。

专业音乐人赛道开打
目前谷歌、ElevenLabs等多家公司都在推出音乐生成相关的模型和工具,赛道越来越挤。Stability AI这边也在为专业音乐人开发一套全新的产品,前Universal Audio和Fender首席数字官Ethan Kaplan已经加入公司,将负责Stability的专业音乐业务。
这个人事任命挺有意思。Ethan Kaplan在音乐硬件和软件领域都有很深的根基,他去Stability AI,说明这家公司不只是想做个”能生成音乐的AI玩具”,而是真的想往专业音乐制作流程里扎根。
最近不少AI公司都在通过聘请音乐行业高管来提升自身行业资质。今年早些时候Suno聘请前Merlin CEO Jeremy Sirota担任首席商务官,ElevenLabs也聘请独立音乐发行商Kobalt的Derek Cournoyer担任音乐业务战略负责人。
看起来,AI音乐生成赛道正在从”谁能生成好听的音乐”转向”谁能搞定版权、搞定音乐行业”。技术只是入场券,版权和行业资源才是长期竞争力的核心。
普通创作者能用上吗
对于普通创作者来说,Stability Audio 3.0的开源小模型是个好消息——你不需要花一分钱,就能在自己的设备上生成最长2分钟的音乐和音效。但如果你想用最好的大模型,或者你是年营收超过100万美元的企业,那就得按商业授权来了。
这套模型的发布,让AI音乐生成赛道的竞争从”谁的模型能生成更长的音乐”升级到了”谁的版权合规性更强、谁更懂专业音乐人的需求”。Stability AI这一步棋,下得挺聪明。
