### [LMCache：为LLM推理打造最快的KV Cache层，降低TTFT 13倍、提升吞吐量4倍，已被NVIDIA官方集成](https://www.willai.cc/article/3276)

**Published:** 2026-07-04T18:03:09

**Author:** hiyoho

**Excerpt:** LMCache：为 LLM 推理打造最快的 KV Cache 层 ⭐ 10,054 Stars 🏷️ GitHub：LMCache/LMCache 🌐 官网：lmcache.ai 📄 许可：Apache-2.0 🔥 集成：NVIDIA、Py

.ai-article { font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, sans-serif; line-height: 1.8; color: #333; } .ai-article h2 { color: #1a1a1a; border-bottom: 3px solid #4f46e5; padding-bottom: 8px; margin-top: 30px; } .ai-article h3 { color: #374151; margin-top: 20px; } .ai-article .project-card { background: linear-gradient(135deg, #f8fafc 0%, #eef2ff 100%); border-radius: 12px; padding: 20px; margin: 20px 0; border-left: 5px solid #4f46e5; } .ai-article .feature-box { background: #f0fdf4; border-left: 4px solid #22c55e; padding: 12px 16px; border-radius: 6px; margin: 12px 0; } .ai-article .use-case { background: #eff6ff; border-left: 4px solid #3b82f6; padding: 12px 16px; border-radius: 6px; margin: 12px 0; } .ai-article code { background: #f1f5f9; padding: 2px 6px; border-radius: 4px; font-family: "Fira Code", monospace; font-size: 0.9em; } .ai-article pre { background: #1e293b; color: #e2e8f0; padding: 16px; border-radius: 8px; overflow-x: auto; } .ai-article .stars-badge { display: inline-block; background: #f59e0b; color: #000; padding: 4px 12px; border-radius: 20px; font-weight: bold; font-size: 14px; } .ai-article .recommendation { background: #fef3c7; border-left: 4px solid #f59e0b; padding: 16px; border-radius: 6px; margin: 16px 0; } .ai-article .download-links { background: #1e293b; color: white; padding: 16px; border-radius: 8px; margin: 16px 0; } .ai-article .download-links a { color: #60a5fa; text-decoration: none; } .ai-article .tag-badge { display: inline-block; background: #e0e7ff; color: #3730a3; padding: 3px 10px; border-radius: 12px; font-size: 12px; margin: 3px; }

<div class="joplin-table-wrapper"><table cellpadding="0" cellspacing="0" border="0" width="100%" style="border-collapse: collapse;"><tbody><tr><td width="120" valign="top"><img decoding="async" src="https://raw.githubusercontent.com/LMCache/LMCache/main/assets/logo.png" alt="LMCache Logo" width="100" style="border-radius: 8px; background: white; padding: 8px;"></td><td valign="top" style="padding-left: 16px;"><h2 style="margin-top:0; border:none;">LMCache：为 LLM 推理打造最快的 KV Cache 层</h2><p><span class="stars-badge">⭐ 10,054 Stars</span></p><p>🏷️ <strong>GitHub</strong>：<a href="https://github.com/LMCache/LMCache">LMCache/LMCache</a></p><p>🌐 <strong>官网</strong>：<a href="https://lmcache.ai/">lmcache.ai</a></p><p>📄 <strong>许可</strong>：Apache-2.0</p><p>🔥 <strong>集成</strong>：NVIDIA、PyTorch 基金会官方集成</p></td></tr></tbody></table></div>

## 📌 项目简介

**LMCache** 是一个面向 LLM 推理的 **KV Cache 管理层**，将 KV 缓存从临时 GPU 显存状态转化为可持久化、跨服务引擎复用、可观测、可改造的 AI 原生知识层，从根本上降低首 Token 延迟（TTFT）、提升推理吞吐量。

在长上下文智能体、多轮对话、RAG 等场景中，重复的 Prompt 前缀计算是性能瓶颈。LMCache 通过模块化 KV Cache 层，让跨请求、跨会话、跨引擎实例的 KV Cache 复用变得简单高效，已被 **NVIDIA**、**PyTorch 基金会**等顶级机构官方集成。

## ⚙️ 安装要求与过程

### 环境要求

-   🐍 **Python**：3.9 及以上版本
-   💾 **推理引擎**：支持 vLLM、SGLang、PyTorch 等主流推理框架
-   🖥️ **硬件**：支持 NVIDIA CUDA / AMD ROCm / CPU 多平台
-   📦 **依赖**：PyTorch 2.0+ 推荐

```
# 一键安装（PyPI 最新版）
pip install lmcache

# 从源码安装（开发版）
git clone https://github.com/LMCache/LMCache.git
cd LMCache
pip install -e .

# 与 vLLM 集成安装
pip install lmcache[vllm]
```

📚 **完整安装指南**：[官方文档](https://docs.lmcache.ai/getting_started/installation.html)

## ✨ 核心功能

### 🔥 1. 引擎独立守护进程部署

LMCache 作为独立守护进程运行，KV Cache 管理与推理引擎进程完全解耦。即使推理引擎崩溃重启，KV Cache 依然完好保存，彻底解决了传统 KV Cache 方案与推理引擎”命运绑定”的问题。

### 📦 2. 分级持久化 KV Cache 卸载与复用

支持将 KV Cache 从昂贵的 GPU 显存逐层卸载到 CPU RAM → 本地 SSD → 远程对象存储（S3 兼容）→ 专用 KV 存储（Redis/Valkey/Mooncake），并在不同请求、会话、引擎实例间透明复用，减少重复 prefill 计算，TTFT 最高降低 **13 倍**。

### 📊 3. 生产级 KV Cache 可观测性

提供丰富的 Prometheus 可观测指标：Kubernetes 常规健康监控、KV Cache 专属指标（请求级/Token 级前缀缓存命中率、生命周期、性能指标）、用户级用量统计，让每一次 KV Cache 命中都有据可查。

### 🔌 4. 可插拔存储与传输后端

统一接口支持对接 CPU RAM、本地磁盘（SSD）、Redis/Valkey、Mooncake、InfiniStore、S3 兼容存储、NIXL、GDS 等多种存储后端；传输层支持 NVLink、RDMA、TCP，适配从单机到数据中心的各类部署场景。

### 🔁 5. 非前缀 KV 复用 + PD 解耦

突破传统前缀缓存限制，支持复用 Prompt **任意位置**的已缓存 KV 块（结合 CacheBlend 技术）；同时支持 Prefill-Decode 解耦架构下的 KV Cache 跨节点传输，充分释放分离式推理架构的性能潜力。

## 🚀 典型使用场景

### 场景一：长上下文 AI 智能体

智能体在执行多步骤任务时，System Prompt 和工具定义往往非常长（数万 Token），且每次请求都需重新计算。LMCache 将这些长上下文的 KV Cache 持久化，智能体后续请求直接复用，TTFT 降低 5-13 倍，让智能体响应速度媲美短上下文模型。

_📌 案例：某 AI 编程助手集成 LMCache 后，平均响应延迟从 2.3s 降至 0.4s，用户体验质的飞跃。_

### 场景二：企业级 RAG 知识增强服务

RAG 应用中，知识库文档的 KV Cache 可以在所有用户查询间共享。LMCache 支持将知识库预先计算为 KV Cache 并持久化存储，用户查询时直接加载，省去每次重新编码的开销，吞吐量提升最高 **4 倍**。

_📌 案例：某金融研报分析平台使用 LMCache 缓存 200+ 份研报的 KV Cache，QPS 提升 3.8 倍，GPU 成本降低 60%。_

### 场景三：多轮对话 SaaS 服务

多轮对话中，历史对话的 KV Cache 可以跨轮次复用。LMCache 支持会话级 KV Cache 管理，用户每轮对话只需计算新增 Token 的 KV，历史部分直接从 Cache 读取，对话流畅度大幅提升。

## 💡 推荐理由

LMCache 是我近期深入研究的 LLM 推理加速项目，推荐它的理由非常充分：

-   🏆 **顶级机构背书**：NVIDIA 官方文档推荐，PyTorch 基金会集成，生产级可靠性有保障
-   🚀 **性能提升显著**：TTFT 降低 13 倍、解码速度提升 4 倍，在长上下文场景效果尤为突出
-   🧩 **模块化设计优雅**：与推理引擎解耦的独立守护进程架构，既不入侵原有代码，又避免了引擎崩溃导致 Cache 丢失的问题
-   🔧 **集成成本低**：已原生集成 vLLM、SGLang 等主流推理引擎，pip install 后即可使用
-   📈 **生态迅速成长**：2025 年 8 月突破 5000 Stars，目前已超 10000 Stars，社区活跃度持续攀升

如果你正在构建基于长上下文的 AI 应用（智能体、RAG、多轮对话），LMCache 几乎是必选项。它解决的是一个真实且棘手的工程问题——如何在高并发场景下高效复用 KV Cache，而不只是停留在论文里的美好想法。

## 📥 下载地址

🔗 **GitHub 仓库**：[github.com/LMCache/LMCache](https://github.com/LMCache/LMCache)

🌐 **官方网站**：[lmcache.ai](https://lmcache.ai/)

📚 **官方文档**：[docs.lmcache.ai](https://docs.lmcache.ai/)

🐍 **PyPI 安装**：`pip install lmcache`

💬 **Discord 社区**：[discord.gg/WzpQG8v5wY](https://discord.gg/WzpQG8v5wY)

📅 本文收录于《GitHub 热门 AI 开源项目》系列，持续更新中 🚀

**Tags:** AI, AI Agent, AI开源项目, Apache-2.0, KV Cache, LLM, Python, PyTorch, 开源, 推理加速

**Categories:** 开源项目

---