颠覆性开源 TTS 模型 Dia 发布:情绪、非语言提示全支持,媲美真人对话

一家名为 Nari Labs 的两人创业公司发布了 Dia,这是一个拥有16亿参数的文本转语音 (TTS) 模型,旨在直接从文本提示生成自然对话。其联合创始人 Toby Kim 声称,Dia 的性能超越了 ElevenLabs 等竞争对手的专有产品以及谷歌的 NotebookLM AI 播客生成功能,并可能对 OpenAI 近期发布的 gpt-4o-mini-tts 构成威胁。

Kim 在社交媒体 X 上表示,Dia 在质量上可与 NotebookLM 的播客功能媲美,并优于 ElevenLabs Studio 和 Sesame 的开放模型。他透露,该模型是在“零资金”的情况下构建的,并强调他们并非一开始就是人工智能专家,而是因为对 NotebookLM 的播客功能的热爱而启动了这个项目。他们尝试了市面上所有的 TTS API,但都不够自然。Kim 对谷歌允许他们使用其张量处理单元芯片 (TPU) 训练 Dia 表示感谢。

目前,Dia 的代码和权重已在 Hugging Face 和 Github 上开源,供用户下载和本地部署。个人用户也可以在 Hugging Face Space 上在线体验。

颠覆性开源 TTS 模型 Dia 发布:情绪、非语言提示全支持,媲美真人对话

高级控制和更多可定制功能

Dia 支持包括情绪语调、说话人标记和(笑)、(咳嗽)、(清嗓子)等非语言音频提示等细致功能,这些都仅通过纯文本实现。Nari Labs 的示例表明,Dia 能够正确解读这些标签,而其他模型往往无法可靠支持。该模型目前仅支持英语,声音在每次运行时都会有所不同,除非用户修改生成种子或提供音频提示进行语音克隆。

Nari Labs 在其网站上提供了 Dia 与 ElevenLabs Studio 和 Sesame CSM-1B 的对比示例,展示了 Dia 在处理自然节奏、非语言表达、多情感对话、复杂节奏内容以及通过音频提示延续语音风格等方面的优越性。Nari Labs 指出,Sesame 的演示可能使用了其内部更大参数的版本。

模型访问和技术规格

开发者可以从 Nari Labs 的 GitHub 存储库和 Hugging Face 模型页面获取 Dia。该模型基于 PyTorch2.0+ 和 CUDA12.6运行,需要约10GB 显存。Nari Labs 计划未来提供 CPU 支持和量化版本。

Dia 在完全开源的 Apache2.0许可证下分发,允许商业用途。Nari Labs 强调禁止将其用于不道德的用途,并鼓励负责任的实验。该项目的开发得到了 Google TPU Research Cloud、Hugging Face 的 ZeroGPU 资助计划以及其他相关研究的支持。Nari Labs 仅有两名工程师,但积极邀请社区参与贡献。

Github: https://github.com/nari-labs/dia

huggingface:https://huggingface.co/spaces/nari-labs/Dia-1.6B

给TA打赏
共{{data.count}}人
人已打赏
视频资讯

海螺推出图像人物参考功能 允许用户基于单张图像生成多角度、动态姿势的角色图像

2025-4-29 16:12:25

视频资讯

全球首个自回归视频生成大模型 MAGI-1 重磅发布,Swin Transformer 团队引领视频创作新潮流

2025-4-29 16:13:05

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索