超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。

国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。

如今,在语音 AI 领域,国产大模型第一梯队的重量级选手 MiniMax 又抛下了一颗「重磅炸弹」。

我们看到,其全新一代 TTS 语音大模型「Speech-02」在国际权威语音评测榜单 Artificial Analysis 上强势登顶,一举击败了 OpenAI、ElevenLabs 两大行业巨头

其中,在字错率(WER,越低越好)和说话人相似度(SIM,越高越好)等关键语音克隆指标上均取得 SOTA 结果。

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

图源:Artificial Analysis Speech Arena Leaderboard

这项成绩直接震惊国外网友,他们纷纷表示:「MiniMax 将成为音频领域的破局者。」

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

知名博主 AK 也转推了这个新语音模型:

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

性能更强之外,Speech-02 还极具性价比,成本仅为 ElevenLabs 竞品模型(multilingual_v2)的 1/4。

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

Speech-02 的登顶,再次展现出了国产大模型超越国外顶级竞争对手的技术实力与底蕴。

那么,Speech-02 究竟有哪些魔力才取得了这样亮眼的成绩。随着本周技术报告的公布,我们对模型背后的技术展开了一番深挖。

屠榜背后

MiniMax 做了哪些技术创新?

当前,主流的文本转语音(TTS)模型在建模策略上主要分为两类,即自回归( AR)语言模型和非自回归(NAR)扩散模型,两者在建模难度、推理速度、合成质量等方面各有其优劣势。

其中,非自回归模型有点类似于批量生产,生成速度很快,就像一家快餐店出餐快但口味普通,生成的语音不够生动、逼真。

自回归模型可以生成韵律、语调和整体自然度等多个方面更好的语音。不过,这类模型在语音克隆过程中需要参考语音和转录文本作为提示词,就像高级餐厅味道好但需要顾客提供详细食谱才能复刻菜品一样。这种单样本(one-shot)学习范式往往导致生成质量不佳。

作为一个采用自回归 Transformer 架构的 TTS 模型,Speech-02 的强大源于两大技术上的创新:

一是实现了真正意义上的零样本(zero-shot)语音克隆。所谓零样本,就是给定一段参考语音,无需提供文本,模型很快就可以生成高度相似的目标语音。

二是全新的 Flow-VAE 架构,既增强了语音生成过程中的信息表征能力,又进一步提升了合成语音的整体质量和相似度。

零样本语音克隆

首先,Speech-02 引入了一个可学习的 speaker 编码器,该编码器会专门学习对合成语音最有用的声音特征,比如更关注说话人的独特发音习惯,而不是无关的背景噪音。

正是在此模式下,Speech-02 只需要听一段目标说话人的声音片段(几秒即可),就能模仿出这个人的音色、语调、节奏等特征,不会有机器人念稿的那种割裂感。而且整个过程是零样本的,不需要额外训练或调整。

这就为语音合成技术节省了大量宝贵时间,我们不难发现,传统方法需要大量数据,比如先录制 1 小时的声音。此外,数据的多样性也是一个问题,模型需要能够处理不同国家、年龄、性别等说话人信息。而 Speech-02 完全克服了这些挑战,直接听音学样,且一听就是你。

此外,MiniMax 还提出了可选增强功能,即单样本语音克隆。在此设置下,需要提供一个文本 – 音频配对样本作为上下文提示,从而指导语音合成。

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

Flow-VAE 架构

MiniMax 还提出了用于生成连续语音特征的关键组件,即基于 Flow-VAE 架构的流匹配模型。从而进一步提升了音频质量,使得生成的音频更加接近真人。

在 Speech-02 中,流匹配模型旨在模拟连续语音特征(潜在)的分布,这些特征是从音频训练的编码器 – 解码器模块架构中提取的,而不是梅尔频谱图。

通常来讲,传统的 VAE 假设其潜在空间服从简单的标准高斯分布,相比之下,Flow-VAE 引入了一个流模型,该模型可以灵活地使用一系列可逆映射来变换潜在空间,从而更准确地捕捉数据中的复杂模式。

更进一步,MiniMax 还搞了个双保险设计,即将全局音色信息和提示信息结合起来。具体而言,Speaker 编码器会从声音中提取全局音色特征 —— 就像提取一个人的「声音 DNA」。训练时,当前句子开头的信息会以一定的概率被用作提示。因此在推理阶段,模型支持零样本和单样本合成模式。

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

可以说,经过一系列操作,Speech-02 不仅可以模仿声音的「形」,还能复现声音的「神」。

正是基于这些强有力的技术支撑,才使得 Speech-02 一举超越 OpenAI、ElevenLabs 等竞品模型。

文生音色

现有的 TTS 方法生成所需音色的语音需要提供该特定音色的参考音频样本,这一要求可能会限制其操作灵活性。

相比之下,MiniMax引入了一个 T2V 框架,该框架独特地将开放式自然语言描述与结构化标签信息相结合。作为参考音频驱动的speaker编码器(擅长克隆现有语音)的补充,该方法促进了高度灵活且可控的音色生成,从而显著增强了 TTS 系统的多功能性。

这里,我们听个Demo,声音描述:说中文的女青年,音色偏甜美,语速比较快,说话时带着一种轻快的感觉整体音调较高,像是在直播带货,整体氛围比较活跃,声音清晰,听起来很有亲和力。

亲爱的宝宝们,等了好久的神仙面霜终于到货啦!你们看这个包装是不是超级精致?我自己已经用了一个月了,效果真的绝绝子!而且这次活动价真的太划算了,错过真的会后悔的哦~

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

Meta 发布巨型 AI 化学数据集 OMol25及通用模型 UMA

2025-5-16 10:00:08

AI新闻资讯

Llamafile 0.9.3震撼支持Qwen3!单文件运行大模型,跨平台便携性炸裂,AI推理更简单!

2025-5-16 10:00:10

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索