### [FunASR：阿里达摩院出品的工业级语音识别工具包，18.6K+ Stars 让中文语音识别又快又准](https://www.willai.cc/article/2806)

**Published:** 2026-06-27T23:34:35

**Author:** hiyoho

**Excerpt:** ASR FunASR：阿里达摩院出品的工业级端到端语音识别工具包 ModelScope（阿里达摩院） 出品 · 18.6K+ Stars · 1.9K+ Forks · MIT 许可 FunASR 是阿里达摩院 ModelScope 团队开

ASR

# FunASR：阿里达摩院出品的工业级端到端语音识别工具包

ModelScope（阿里达摩院） 出品 · 18.6K+ Stars · 1.9K+ Forks · MIT 许可

**FunASR** 是阿里达摩院 ModelScope 团队开发的**工业级端到端语音识别工具包**，  
支持 170 倍实时识别速度、50+ 语言、内置说话人日志与情感检测，并提供兼容 OpenAI 的 API 接口。  
相比 Whisper，FunASR 在中文和方言识别上准确率更高，CPU 场景运行速度更快，是开源语音识别领域最实用的生产级工具包。

18.6K+

GitHub Stars

50+

支持语言

170x

实时识别速度

MIT

开源许可

## ⚙️ 安装要求和过程  

### 环境要求

-   Python ≥ 3.8
-   需先安装 PyTorch 和 torchaudio
-   GPU 可选（CPU 场景亦可运行，SenseVoice 模型可达 17 倍实时）
-   可选：vLLM（加速推理）、Docker（容器部署）

### 快速安装

```
# 从 PyPI 安装（推荐）
pip install funasr
pip install funasr[cli]      # 包含 CLI 命令行工具

# 从源码安装
git clone https://github.com/modelscope/FunASR.git
cd FunASR
pip install -e ./

# Docker 一键部署 API 服务
docker run -p 8000:8000 funasr/funasr-server:latest
```

## 🚀 核心功能  

⚡

### 170倍实时识别速度

旗舰模型 Fun-ASR-Nano 配合 vLLM 加速可达 340 倍实时，比 Whisper 快 26 倍；CPU 场景下 SenseVoice 模型可达 17 倍实时

🌍

### 50+ 语言支持

Qwen3-ASR 支持 52 种语言，Fun-ASR-Nano 支持 31 种语言，覆盖全球主流语种，适合国际化应用

🎯

### 内置多任务能力

单模型调用即可完成 VAD 分段、语音识别、说话人分离、标点恢复、时间戳、情感/音频事件识别，无需额外模型

🔄

### 流式实时识别

支持音频流逐块输入，适合实时字幕、语音实时转写场景，支持逐字/逐句流式输出

🔌

### OpenAI 兼容 API

提供兼容 OpenAI 语音识别 API 的接口，可对接 LangChain、Dify、AutoGen 等 AI 框架；提供 MCP Server 可接入 Claude Code、Cursor 等智能体

## 💡 典型使用场景  

### 🎤 本地音频快速转录

无需 GPU 即可使用，单条命令完成音频转录，支持输出纯文本、JSON、SRT 字幕等格式

```
funasr audio.wav
funasr audio.wav --output-format json
funasr audio.wav --output-format srt --output-dir ./subs
```

### 👥 会议长音频处理

单模型调用同时完成 VAD 分段、语音识别、说话人分离，适合会议、访谈等长音频场景

```
from funasr import AutoModel

model = AutoModel(
    model="iic/SenseVoiceSmall",
    vad_model="fsmn-vad",
    spk_model="cam++",
    device="cuda"
)
result = model.generate(
    input="meeting_record.wav",
    batch_size_s=300,
)
```

### 🚀 生产级 API 部署

一键启动兼容 OpenAI 的 API 服务，可对接现有基于 OpenAI API 的应用，无需修改代码

```
# 启动服务
funasr-server --device cuda

# 调用（兼容 OpenAI API）
curl http://localhost:8000/v1/audio/transcriptions \
  -F file=@sample.wav -F model=sensevoice
```

## 🌟 推荐理由  

FunASR 是开源语音识别领域最实用的工业级工具包。相比 Whisper，它在中文和方言识别上准确率更高，CPU 场景运行速度更快（17 倍实时），且内置了说话人分离、情感检测等额外能力，无需像 Whisper 那样集成多个模型。

最让我惊喜的是它的 **OpenAI 兼容 API**——只需改一行代码，就能把基于 Whisper 的应用无缝迁移到 FunASR，且中文识别准确率显著提升。此外，它还提供 MCP Server，可直接接入 Claude Code、Cursor 等 AI 编程助手，让语音识别能力融入 AI 工作流。

MIT 许可允许商用，且支持边缘设备无 Python 运行时部署（llama.cpp/GGUF），真正做到了全场景覆盖。如果你在做语音相关的 AI 应用，FunASR 是目前最好的开源选择。

## 📥 下载地址  

[GitHub 仓库](https://github.com/modelscope/FunASR)  
[官方文档](https://modelscope.github.io/FunASR/)  
[PyPI 安装](https://pypi.org/project/funasr/)  
[下载发布包](https://github.com/modelscope/FunASR/releases)

⭐ 如果你觉得这篇文章有用，欢迎在 GitHub 上给 FunASR 点个 Star！

**Tags:** AI, AI Agent, AI开源项目, ASR, LLM, MIT许可, Python, 开源, 语音AI, 语音识别

**Categories:** 开源项目

---