LMCache：为LLM推理打造最快的KV Cache层，降低TTFT 13倍、提升吞吐量4倍，已被NVIDIA官方集成

Q: LMCache：为LLM推理打造最快的KV Cache层，降低TTFT 13倍、提升吞吐量4倍，已被NVIDIA官方集成

LMCache：为 LLM 推理打造最快的 KV Cache 层 ⭐ 10,054 Stars 🏷️ GitHub：LMCache/LMCache 🌐 官网：lmcache.ai 📄 许可：Apache-2.0 🔥 集成：NVIDIA、Py

LMCache：为 LLM 推理打造最快的 KV Cache 层

⭐ 10,054 Stars

🏷️ GitHub：LMCache/LMCache

🌐 官网：lmcache.ai

📄 许可：Apache-2.0

🔥 集成：NVIDIA、PyTorch 基金会官方集成

📌 项目简介

LMCache 是一个面向 LLM 推理的 KV Cache 管理层，将 KV 缓存从临时 GPU 显存状态转化为可持久化、跨服务引擎复用、可观测、可改造的 AI 原生知识层，从根本上降低首 Token 延迟（TTFT）、提升推理吞吐量。

在长上下文智能体、多轮对话、RAG 等场景中，重复的 Prompt 前缀计算是性能瓶颈。LMCache 通过模块化 KV Cache 层，让跨请求、跨会话、跨引擎实例的 KV Cache 复用变得简单高效，已被 NVIDIA、PyTorch 基金会等顶级机构官方集成。

⚙️ 安装要求与过程

环境要求

🐍 Python：3.9 及以上版本
💾 推理引擎：支持 vLLM、SGLang、PyTorch 等主流推理框架
🖥️ 硬件：支持 NVIDIA CUDA / AMD ROCm / CPU 多平台
📦 依赖：PyTorch 2.0+ 推荐

# 一键安装（PyPI 最新版）
pip install lmcache

# 从源码安装（开发版）
git clone https://github.com/LMCache/LMCache.git
cd LMCache
pip install -e .

# 与 vLLM 集成安装
pip install lmcache[vllm]

📚 完整安装指南：官方文档

✨ 核心功能

🔥 1. 引擎独立守护进程部署

LMCache 作为独立守护进程运行，KV Cache 管理与推理引擎进程完全解耦。即使推理引擎崩溃重启，KV Cache 依然完好保存，彻底解决了传统 KV Cache 方案与推理引擎”命运绑定”的问题。

📦 2. 分级持久化 KV Cache 卸载与复用

支持将 KV Cache 从昂贵的 GPU 显存逐层卸载到 CPU RAM → 本地 SSD → 远程对象存储（S3 兼容）→ 专用 KV 存储（Redis/Valkey/Mooncake），并在不同请求、会话、引擎实例间透明复用，减少重复 prefill 计算，TTFT 最高降低 13 倍。

📊 3. 生产级 KV Cache 可观测性

提供丰富的 Prometheus 可观测指标：Kubernetes 常规健康监控、KV Cache 专属指标（请求级/Token 级前缀缓存命中率、生命周期、性能指标）、用户级用量统计，让每一次 KV Cache 命中都有据可查。

🔌 4. 可插拔存储与传输后端

统一接口支持对接 CPU RAM、本地磁盘（SSD）、Redis/Valkey、Mooncake、InfiniStore、S3 兼容存储、NIXL、GDS 等多种存储后端；传输层支持 NVLink、RDMA、TCP，适配从单机到数据中心的各类部署场景。

🔁 5. 非前缀 KV 复用 + PD 解耦

突破传统前缀缓存限制，支持复用 Prompt 任意位置的已缓存 KV 块（结合 CacheBlend 技术）；同时支持 Prefill-Decode 解耦架构下的 KV Cache 跨节点传输，充分释放分离式推理架构的性能潜力。

🚀 典型使用场景

场景一：长上下文 AI 智能体

智能体在执行多步骤任务时，System Prompt 和工具定义往往非常长（数万 Token），且每次请求都需重新计算。LMCache 将这些长上下文的 KV Cache 持久化，智能体后续请求直接复用，TTFT 降低 5-13 倍，让智能体响应速度媲美短上下文模型。

📌 案例：某 AI 编程助手集成 LMCache 后，平均响应延迟从 2.3s 降至 0.4s，用户体验质的飞跃。

场景二：企业级 RAG 知识增强服务

RAG 应用中，知识库文档的 KV Cache 可以在所有用户查询间共享。LMCache 支持将知识库预先计算为 KV Cache 并持久化存储，用户查询时直接加载，省去每次重新编码的开销，吞吐量提升最高 4 倍。

📌 案例：某金融研报分析平台使用 LMCache 缓存 200+ 份研报的 KV Cache，QPS 提升 3.8 倍，GPU 成本降低 60%。

场景三：多轮对话 SaaS 服务

多轮对话中，历史对话的 KV Cache 可以跨轮次复用。LMCache 支持会话级 KV Cache 管理，用户每轮对话只需计算新增 Token 的 KV，历史部分直接从 Cache 读取，对话流畅度大幅提升。

💡 推荐理由

LMCache 是我近期深入研究的 LLM 推理加速项目，推荐它的理由非常充分：

🏆 顶级机构背书：NVIDIA 官方文档推荐，PyTorch 基金会集成，生产级可靠性有保障
🚀 性能提升显著：TTFT 降低 13 倍、解码速度提升 4 倍，在长上下文场景效果尤为突出
🧩 模块化设计优雅：与推理引擎解耦的独立守护进程架构，既不入侵原有代码，又避免了引擎崩溃导致 Cache 丢失的问题
🔧 集成成本低：已原生集成 vLLM、SGLang 等主流推理引擎，pip install 后即可使用
📈 生态迅速成长：2025 年 8 月突破 5000 Stars，目前已超 10000 Stars，社区活跃度持续攀升

如果你正在构建基于长上下文的 AI 应用（智能体、RAG、多轮对话），LMCache 几乎是必选项。它解决的是一个真实且棘手的工程问题——如何在高并发场景下高效复用 KV Cache，而不只是停留在论文里的美好想法。

📥 下载地址

🔗 GitHub 仓库：github.com/LMCache/LMCache

🌐 官方网站：lmcache.ai

📚 官方文档：docs.lmcache.ai

🐍 PyPI 安装：pip install lmcache

💬 Discord 社区：discord.gg/WzpQG8v5wY

📅 本文收录于《GitHub 热门 AI 开源项目》系列，持续更新中 🚀

LMCache：为LLM推理打造最快的KV Cache层，降低TTFT 13倍、提升吞吐量4倍，已被NVIDIA官方集成

LMCache：为 LLM 推理打造最快的 KV Cache 层

📌 项目简介

⚙️ 安装要求与过程

环境要求

✨ 核心功能

🔥 1. 引擎独立守护进程部署

📦 2. 分级持久化 KV Cache 卸载与复用

📊 3. 生产级 KV Cache 可观测性

🔌 4. 可插拔存储与传输后端

🔁 5. 非前缀 KV 复用 + PD 解耦

🚀 典型使用场景

场景一：长上下文 AI 智能体

场景二：企业级 RAG 知识增强服务

场景三：多轮对话 SaaS 服务

💡 推荐理由

📥 下载地址

鱼眼视角高级时尚九宫格写真

Google DeepMind掏了1000万美元，研究AI Agent互相勾兑会出什么乱子

LangExtract：Google 出品的 LLM 结构化信息提取利器，精准溯源让 AI 抽取结果可验证

做人形机器人的Agility Robotics要上市了，估值25亿美元

2026年科技大裁员：AI成了最好的借口

高通想做下一个英伟达，先掏出了Dragonfly CPU

DSPy：用编程取代提示词工程，Stanford 出品 LLM 应用优化框架，27.5K+ Stars

OpenAI终于亮出底牌：自研芯片Jalapeño登场，英伟达要紧张了