### [FunASR:阿里达摩院出品的工业级语音识别工具包,18.6K+ Stars 让中文语音识别又快又准](https://www.willai.cc/article/2806) **Published:** 2026-06-27T23:34:35 **Author:** hiyoho **Excerpt:** ASR FunASR:阿里达摩院出品的工业级端到端语音识别工具包 ModelScope(阿里达摩院) 出品 · 18.6K+ Stars · 1.9K+ Forks · MIT 许可 FunASR 是阿里达摩院 ModelScope 团队开 ASR # FunASR:阿里达摩院出品的工业级端到端语音识别工具包 ModelScope(阿里达摩院) 出品 · 18.6K+ Stars · 1.9K+ Forks · MIT 许可 **FunASR** 是阿里达摩院 ModelScope 团队开发的**工业级端到端语音识别工具包**, 支持 170 倍实时识别速度、50+ 语言、内置说话人日志与情感检测,并提供兼容 OpenAI 的 API 接口。 相比 Whisper,FunASR 在中文和方言识别上准确率更高,CPU 场景运行速度更快,是开源语音识别领域最实用的生产级工具包。 18.6K+ GitHub Stars 50+ 支持语言 170x 实时识别速度 MIT 开源许可 ## ⚙️ 安装要求和过程 ### 环境要求 - Python ≥ 3.8 - 需先安装 PyTorch 和 torchaudio - GPU 可选(CPU 场景亦可运行,SenseVoice 模型可达 17 倍实时) - 可选:vLLM(加速推理)、Docker(容器部署) ### 快速安装 ``` # 从 PyPI 安装(推荐) pip install funasr pip install funasr[cli] # 包含 CLI 命令行工具 # 从源码安装 git clone https://github.com/modelscope/FunASR.git cd FunASR pip install -e ./ # Docker 一键部署 API 服务 docker run -p 8000:8000 funasr/funasr-server:latest ``` ## 🚀 核心功能 ⚡ ### 170倍实时识别速度 旗舰模型 Fun-ASR-Nano 配合 vLLM 加速可达 340 倍实时,比 Whisper 快 26 倍;CPU 场景下 SenseVoice 模型可达 17 倍实时 🌍 ### 50+ 语言支持 Qwen3-ASR 支持 52 种语言,Fun-ASR-Nano 支持 31 种语言,覆盖全球主流语种,适合国际化应用 🎯 ### 内置多任务能力 单模型调用即可完成 VAD 分段、语音识别、说话人分离、标点恢复、时间戳、情感/音频事件识别,无需额外模型 🔄 ### 流式实时识别 支持音频流逐块输入,适合实时字幕、语音实时转写场景,支持逐字/逐句流式输出 🔌 ### OpenAI 兼容 API 提供兼容 OpenAI 语音识别 API 的接口,可对接 LangChain、Dify、AutoGen 等 AI 框架;提供 MCP Server 可接入 Claude Code、Cursor 等智能体 ## 💡 典型使用场景 ### 🎤 本地音频快速转录 无需 GPU 即可使用,单条命令完成音频转录,支持输出纯文本、JSON、SRT 字幕等格式 ``` funasr audio.wav funasr audio.wav --output-format json funasr audio.wav --output-format srt --output-dir ./subs ``` ### 👥 会议长音频处理 单模型调用同时完成 VAD 分段、语音识别、说话人分离,适合会议、访谈等长音频场景 ``` from funasr import AutoModel model = AutoModel( model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda" ) result = model.generate( input="meeting_record.wav", batch_size_s=300, ) ``` ### 🚀 生产级 API 部署 一键启动兼容 OpenAI 的 API 服务,可对接现有基于 OpenAI API 的应用,无需修改代码 ``` # 启动服务 funasr-server --device cuda # 调用(兼容 OpenAI API) curl http://localhost:8000/v1/audio/transcriptions \ -F file=@sample.wav -F model=sensevoice ``` ## 🌟 推荐理由 FunASR 是开源语音识别领域最实用的工业级工具包。相比 Whisper,它在中文和方言识别上准确率更高,CPU 场景运行速度更快(17 倍实时),且内置了说话人分离、情感检测等额外能力,无需像 Whisper 那样集成多个模型。 最让我惊喜的是它的 **OpenAI 兼容 API**——只需改一行代码,就能把基于 Whisper 的应用无缝迁移到 FunASR,且中文识别准确率显著提升。此外,它还提供 MCP Server,可直接接入 Claude Code、Cursor 等 AI 编程助手,让语音识别能力融入 AI 工作流。 MIT 许可允许商用,且支持边缘设备无 Python 运行时部署(llama.cpp/GGUF),真正做到了全场景覆盖。如果你在做语音相关的 AI 应用,FunASR 是目前最好的开源选择。 ## 📥 下载地址 [GitHub 仓库](https://github.com/modelscope/FunASR) [官方文档](https://modelscope.github.io/FunASR/) [PyPI 安装](https://pypi.org/project/funasr/) [下载发布包](https://github.com/modelscope/FunASR/releases) ⭐ 如果你觉得这篇文章有用,欢迎在 GitHub 上给 FunASR 点个 Star! **Tags:** AI, AI Agent, AI开源项目, ASR, LLM, MIT许可, Python, 开源, 语音AI, 语音识别 **Categories:** 开源项目 ---