开发者
📌 项目简介
Voicebox 是一个开源的 AI 语音工作室,由独立开发者 jamiepine 打造,旨在提供完全本地运行的 AI 语音解决方案。它将”语音生成(替代 ElevenLabs)”和”语音输入(替代 WisprFlow)”二合一,所有模型和数据完全在本地运行,无需上传云端,是隐私优先的 AI 语音工具首选。
项目基于 Tauri (Rust) 桌面端 + React/TypeScript 前端 + FastAPI Python 后端架构,支持 macOS、Windows 和 Docker 部署,内置 7 种 TTS 引擎、Whisper STT、本地 Qwen3 LLM,并原生支持 MCP 协议,让 AI 智能体也能”开口说话”。
⚙️ 安装要求和过程
环境要求
- macOS:Apple Silicon (M1+) 或 Intel Mac,推荐 16GB 内存
- Windows:Windows 10+,支持 CUDA GPU 加速(NVIDIA)或 DirectML(任意 GPU)
- Linux:从源码构建,支持 CUDA/ROCm GPU 加速
- 通用:Python 3.11+,Rust(开发构建),Bun (JS 运行时)
快速安装(预编译包)
curl -L https://voicebox.sh/download/mac-arm -o Voicebox.dmg
# macOS (Intel)
curl -L https://voicebox.sh/download/mac-intel -o Voicebox.dmg
# Windows
# 下载 MSI:https://voicebox.sh/download/windows
# Docker 一键启动
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
docker compose up
从源码开发构建
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
# 安装 just 命令工具(任务运行器)
brew install just # macOS
# 或 cargo install just
# 一键安装依赖并启动开发服务器
just setup
just dev
# 构建生产版本
just build # CPU 版本
just build-local # Windows + CUDA 版本
🌟 核心功能
🎤 7 种 TTS 引擎,覆盖全场景
Voicebox 集成了 7 种开源 TTS 引擎,从超轻量的 Kokoro (82M) 到高质量的 HumeAI TADA (3B),满足不同场景需求:
| 引擎 | 语言数 | 模型大小 | 核心优势 |
|---|---|---|---|
| Qwen3-TTS | 10 | 0.6B/1.7B | 高质量多语言克隆,支持发音指令 |
| Chatterbox Multilingual | 23 | ~1GB | 语言覆盖最广,支持阿拉伯语/芬兰语等 |
| Chatterbox Turbo | 英语 | 350M | 超快速度,支持 [laugh]/[sigh] 表情标签 |
| Kokoro | 8 | 82M | 极小模型,CPU 实时 10x+ 速度 |
| LuxTTS | 英语 | ~1GB | 48kHz 输出,CPU 150x 实时速度 |
| HumeAI TADA | 10 | 1B/3B | 语音语言模型,支持 700s+ 连贯音频 |
| Qwen CustomVoice | 10 | – | 自然语言控制发音,无需参考音频 |
🗣️ 语音克隆 + 无限长度生成
支持从几秒音频进行零样本语音克隆,同时内置 Kokoro 和 Qwen CustomVoice 的 50+ 精选预设语音。独创”无限长度生成”机制——自动按句子拆分文本,分块生成后交叉淡入淡出拼接,最大支持 50,000 字符的文本输入,彻底打破 TTS 长度限制。
🎧 全局语音输入(Dictation)
支持全局热键语音输入,macOS 支持自动粘贴到当前文本框(按住说话/切换模式)。内置 Whisper STT,支持可选 LLM 优化去除口癖、停顿,让语音输入更流畅自然。相当于开源版的 WisprFlow!
🤖 AI 智能体语音输出(MCP 支持)
内置本地 MCP 服务器,支持 Claude Code、Cursor、Cline 等 AI 编程助手通过 voicebox.speak 工具调用,让 AI 智能体用克隆的语音”开口说话”。支持为不同智能体绑定不同语音,实现个性化语音输出。
claude mcp add voicebox –transport http –url http://127.0.0.1:17493/mcp –header “X-Voicebox-Client-Id: claude-code”
🎬 语音故事编辑器 + 音频后处理
内置多轨道时间线编辑器,支持对话、播客、叙事内容制作,支持拖拽、音频裁剪、同步播放。基于 Spotify pedalboard 库提供 8 种音频后处理效果(音调偏移、混响、延迟、合唱、压缩等),并内置”机器人”、”电台”、”回声室”、”低音”4 种预设效果链。
💡 典型使用场景
场景一:AI 编程助手语音通知
长时间运行的编程任务(如模型训练、测试套件)完成后,通过 Voicebox MCP 集成,让 Claude Code 或 Cursor 用你喜欢的语音播报结果:”测试全部通过,共 42 个用例,耗时 3 分 12 秒”。不用盯着屏幕,声音告诉你进度!
场景二:多语言内容创作
使用 Chatterbox Multilingual 引擎(支持 23 种语言),配合语音克隆功能,内容创作者可以用自己(或任何)的声音生成多语言版本的视频配音、播客内容。Qwen3-TTS 还支持输入发音指令(如”慢点说”、”小声说”),让生成语音更自然。
场景三:本地隐私优先的语音输入替代
替代 WisprFlow 等云端语音输入工具,所有语音识别和转录均在本地运行(Whisper STT),语音数据不上传任何云端服务器。对隐私敏感的用户、企业内网环境,或者需要离线使用的场景,Voicebox 是最佳选择。
💬 推荐理由
为什么推荐 Voicebox?
1. 隐私优先,本地全栈。模型、语音数据、录音内容完全本地存储,不依赖任何云服务。对于关注数据隐私的开发者来说,这一点至关重要。
2. 二合一解决方案。一个工具同时替代 ElevenLabs(语音生成)和 WisprFlow(语音输入),不需要订阅两个服务,省心省钱。
3. 引擎覆盖全面。7 种 TTS 引擎从 82M 到 3B 参数,从 CPU 到 GPU 加速,从英语到 23 种语言,几乎覆盖了所有使用场景。
4. MCP 原生支持。AI 智能体生态正在爆发,Voicebox 率先支持 MCP 协议,让 AI 智能体具备语音输出能力,这在开源项目中非常前瞻。
5. 活跃开发中。485 个开放 Issues 说明社区非常活跃,项目在快速迭代。MIT 许可允许自由修改和分发,适合二次开发。
个人使用感受:Voicebox 的 MCP 集成体验非常顺滑,配置一次后,Claude Code 就能直接调用语音输出。用它来做长时间编程任务的语音通知,比盯着终端看进度条优雅太多。唯一的小遗憾是 Linux 目前还没有预编译包,需要自己从源码构建。
📥 下载地址
项目信息:
⭐ GitHub Stars: 34,192
📜 开源许可: MIT License
💻 技术栈: Tauri (Rust) + React/TypeScript + FastAPI (Python)
🌐 官网: voicebox.sh
📦 Docker: docker compose up
最近更新: 2026 年 6 月
