### [LMCache:为LLM推理打造最快的KV Cache层,降低TTFT 13倍、提升吞吐量4倍,已被NVIDIA官方集成](https://www.willai.cc/article/3276)
**Published:** 2026-07-04T18:03:09
**Author:** hiyoho
**Excerpt:** LMCache:为 LLM 推理打造最快的 KV Cache 层 ⭐ 10,054 Stars 🏷️ GitHub:LMCache/LMCache 🌐 官网:lmcache.ai 📄 许可:Apache-2.0 🔥 集成:NVIDIA、Py
.ai-article { font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, sans-serif; line-height: 1.8; color: #333; } .ai-article h2 { color: #1a1a1a; border-bottom: 3px solid #4f46e5; padding-bottom: 8px; margin-top: 30px; } .ai-article h3 { color: #374151; margin-top: 20px; } .ai-article .project-card { background: linear-gradient(135deg, #f8fafc 0%, #eef2ff 100%); border-radius: 12px; padding: 20px; margin: 20px 0; border-left: 5px solid #4f46e5; } .ai-article .feature-box { background: #f0fdf4; border-left: 4px solid #22c55e; padding: 12px 16px; border-radius: 6px; margin: 12px 0; } .ai-article .use-case { background: #eff6ff; border-left: 4px solid #3b82f6; padding: 12px 16px; border-radius: 6px; margin: 12px 0; } .ai-article code { background: #f1f5f9; padding: 2px 6px; border-radius: 4px; font-family: "Fira Code", monospace; font-size: 0.9em; } .ai-article pre { background: #1e293b; color: #e2e8f0; padding: 16px; border-radius: 8px; overflow-x: auto; } .ai-article .stars-badge { display: inline-block; background: #f59e0b; color: #000; padding: 4px 12px; border-radius: 20px; font-weight: bold; font-size: 14px; } .ai-article .recommendation { background: #fef3c7; border-left: 4px solid #f59e0b; padding: 16px; border-radius: 6px; margin: 16px 0; } .ai-article .download-links { background: #1e293b; color: white; padding: 16px; border-radius: 8px; margin: 16px 0; } .ai-article .download-links a { color: #60a5fa; text-decoration: none; } .ai-article .tag-badge { display: inline-block; background: #e0e7ff; color: #3730a3; padding: 3px 10px; border-radius: 12px; font-size: 12px; margin: 3px; }
 | LMCache:为 LLM 推理打造最快的 KV Cache 层⭐ 10,054 Stars 🏷️ GitHub:LMCache/LMCache 🌐 官网:lmcache.ai 📄 许可:Apache-2.0 🔥 集成:NVIDIA、PyTorch 基金会官方集成 |
## 📌 项目简介
**LMCache** 是一个面向 LLM 推理的 **KV Cache 管理层**,将 KV 缓存从临时 GPU 显存状态转化为可持久化、跨服务引擎复用、可观测、可改造的 AI 原生知识层,从根本上降低首 Token 延迟(TTFT)、提升推理吞吐量。
在长上下文智能体、多轮对话、RAG 等场景中,重复的 Prompt 前缀计算是性能瓶颈。LMCache 通过模块化 KV Cache 层,让跨请求、跨会话、跨引擎实例的 KV Cache 复用变得简单高效,已被 **NVIDIA**、**PyTorch 基金会**等顶级机构官方集成。
## ⚙️ 安装要求与过程
### 环境要求
- 🐍 **Python**:3.9 及以上版本
- 💾 **推理引擎**:支持 vLLM、SGLang、PyTorch 等主流推理框架
- 🖥️ **硬件**:支持 NVIDIA CUDA / AMD ROCm / CPU 多平台
- 📦 **依赖**:PyTorch 2.0+ 推荐
```
# 一键安装(PyPI 最新版)
pip install lmcache
# 从源码安装(开发版)
git clone https://github.com/LMCache/LMCache.git
cd LMCache
pip install -e .
# 与 vLLM 集成安装
pip install lmcache[vllm]
```
📚 **完整安装指南**:[官方文档](https://docs.lmcache.ai/getting_started/installation.html)
## ✨ 核心功能
### 🔥 1. 引擎独立守护进程部署
LMCache 作为独立守护进程运行,KV Cache 管理与推理引擎进程完全解耦。即使推理引擎崩溃重启,KV Cache 依然完好保存,彻底解决了传统 KV Cache 方案与推理引擎”命运绑定”的问题。
### 📦 2. 分级持久化 KV Cache 卸载与复用
支持将 KV Cache 从昂贵的 GPU 显存逐层卸载到 CPU RAM → 本地 SSD → 远程对象存储(S3 兼容)→ 专用 KV 存储(Redis/Valkey/Mooncake),并在不同请求、会话、引擎实例间透明复用,减少重复 prefill 计算,TTFT 最高降低 **13 倍**。
### 📊 3. 生产级 KV Cache 可观测性
提供丰富的 Prometheus 可观测指标:Kubernetes 常规健康监控、KV Cache 专属指标(请求级/Token 级前缀缓存命中率、生命周期、性能指标)、用户级用量统计,让每一次 KV Cache 命中都有据可查。
### 🔌 4. 可插拔存储与传输后端
统一接口支持对接 CPU RAM、本地磁盘(SSD)、Redis/Valkey、Mooncake、InfiniStore、S3 兼容存储、NIXL、GDS 等多种存储后端;传输层支持 NVLink、RDMA、TCP,适配从单机到数据中心的各类部署场景。
### 🔁 5. 非前缀 KV 复用 + PD 解耦
突破传统前缀缓存限制,支持复用 Prompt **任意位置**的已缓存 KV 块(结合 CacheBlend 技术);同时支持 Prefill-Decode 解耦架构下的 KV Cache 跨节点传输,充分释放分离式推理架构的性能潜力。
## 🚀 典型使用场景
### 场景一:长上下文 AI 智能体
智能体在执行多步骤任务时,System Prompt 和工具定义往往非常长(数万 Token),且每次请求都需重新计算。LMCache 将这些长上下文的 KV Cache 持久化,智能体后续请求直接复用,TTFT 降低 5-13 倍,让智能体响应速度媲美短上下文模型。
_📌 案例:某 AI 编程助手集成 LMCache 后,平均响应延迟从 2.3s 降至 0.4s,用户体验质的飞跃。_
### 场景二:企业级 RAG 知识增强服务
RAG 应用中,知识库文档的 KV Cache 可以在所有用户查询间共享。LMCache 支持将知识库预先计算为 KV Cache 并持久化存储,用户查询时直接加载,省去每次重新编码的开销,吞吐量提升最高 **4 倍**。
_📌 案例:某金融研报分析平台使用 LMCache 缓存 200+ 份研报的 KV Cache,QPS 提升 3.8 倍,GPU 成本降低 60%。_
### 场景三:多轮对话 SaaS 服务
多轮对话中,历史对话的 KV Cache 可以跨轮次复用。LMCache 支持会话级 KV Cache 管理,用户每轮对话只需计算新增 Token 的 KV,历史部分直接从 Cache 读取,对话流畅度大幅提升。
## 💡 推荐理由
LMCache 是我近期深入研究的 LLM 推理加速项目,推荐它的理由非常充分:
- 🏆 **顶级机构背书**:NVIDIA 官方文档推荐,PyTorch 基金会集成,生产级可靠性有保障
- 🚀 **性能提升显著**:TTFT 降低 13 倍、解码速度提升 4 倍,在长上下文场景效果尤为突出
- 🧩 **模块化设计优雅**:与推理引擎解耦的独立守护进程架构,既不入侵原有代码,又避免了引擎崩溃导致 Cache 丢失的问题
- 🔧 **集成成本低**:已原生集成 vLLM、SGLang 等主流推理引擎,pip install 后即可使用
- 📈 **生态迅速成长**:2025 年 8 月突破 5000 Stars,目前已超 10000 Stars,社区活跃度持续攀升
如果你正在构建基于长上下文的 AI 应用(智能体、RAG、多轮对话),LMCache 几乎是必选项。它解决的是一个真实且棘手的工程问题——如何在高并发场景下高效复用 KV Cache,而不只是停留在论文里的美好想法。
## 📥 下载地址
🔗 **GitHub 仓库**:[github.com/LMCache/LMCache](https://github.com/LMCache/LMCache)
🌐 **官方网站**:[lmcache.ai](https://lmcache.ai/)
📚 **官方文档**:[docs.lmcache.ai](https://docs.lmcache.ai/)
🐍 **PyPI 安装**:`pip install lmcache`
💬 **Discord 社区**:[discord.gg/WzpQG8v5wY](https://discord.gg/WzpQG8v5wY)
📅 本文收录于《GitHub 热门 AI 开源项目》系列,持续更新中 🚀
**Tags:** AI, AI Agent, AI开源项目, Apache-2.0, KV Cache, LLM, Python, PyTorch, 开源, 推理加速
**Categories:** 开源项目
---