|
LMCache:为 LLM 推理打造最快的 KV Cache 层⭐ 10,054 Stars 🏷️ GitHub:LMCache/LMCache 🌐 官网:lmcache.ai 📄 许可:Apache-2.0 🔥 集成:NVIDIA、PyTorch 基金会官方集成 |
📌 项目简介
LMCache 是一个面向 LLM 推理的 KV Cache 管理层,将 KV 缓存从临时 GPU 显存状态转化为可持久化、跨服务引擎复用、可观测、可改造的 AI 原生知识层,从根本上降低首 Token 延迟(TTFT)、提升推理吞吐量。
在长上下文智能体、多轮对话、RAG 等场景中,重复的 Prompt 前缀计算是性能瓶颈。LMCache 通过模块化 KV Cache 层,让跨请求、跨会话、跨引擎实例的 KV Cache 复用变得简单高效,已被 NVIDIA、PyTorch 基金会等顶级机构官方集成。
⚙️ 安装要求与过程
环境要求
- 🐍 Python:3.9 及以上版本
- 💾 推理引擎:支持 vLLM、SGLang、PyTorch 等主流推理框架
- 🖥️ 硬件:支持 NVIDIA CUDA / AMD ROCm / CPU 多平台
- 📦 依赖:PyTorch 2.0+ 推荐
# 一键安装(PyPI 最新版)
pip install lmcache
# 从源码安装(开发版)
git clone https://github.com/LMCache/LMCache.git
cd LMCache
pip install -e .
# 与 vLLM 集成安装
pip install lmcache[vllm]
📚 完整安装指南:官方文档
✨ 核心功能
🔥 1. 引擎独立守护进程部署
LMCache 作为独立守护进程运行,KV Cache 管理与推理引擎进程完全解耦。即使推理引擎崩溃重启,KV Cache 依然完好保存,彻底解决了传统 KV Cache 方案与推理引擎”命运绑定”的问题。
📦 2. 分级持久化 KV Cache 卸载与复用
支持将 KV Cache 从昂贵的 GPU 显存逐层卸载到 CPU RAM → 本地 SSD → 远程对象存储(S3 兼容)→ 专用 KV 存储(Redis/Valkey/Mooncake),并在不同请求、会话、引擎实例间透明复用,减少重复 prefill 计算,TTFT 最高降低 13 倍。
📊 3. 生产级 KV Cache 可观测性
提供丰富的 Prometheus 可观测指标:Kubernetes 常规健康监控、KV Cache 专属指标(请求级/Token 级前缀缓存命中率、生命周期、性能指标)、用户级用量统计,让每一次 KV Cache 命中都有据可查。
🔌 4. 可插拔存储与传输后端
统一接口支持对接 CPU RAM、本地磁盘(SSD)、Redis/Valkey、Mooncake、InfiniStore、S3 兼容存储、NIXL、GDS 等多种存储后端;传输层支持 NVLink、RDMA、TCP,适配从单机到数据中心的各类部署场景。
🔁 5. 非前缀 KV 复用 + PD 解耦
突破传统前缀缓存限制,支持复用 Prompt 任意位置的已缓存 KV 块(结合 CacheBlend 技术);同时支持 Prefill-Decode 解耦架构下的 KV Cache 跨节点传输,充分释放分离式推理架构的性能潜力。
🚀 典型使用场景
场景一:长上下文 AI 智能体
智能体在执行多步骤任务时,System Prompt 和工具定义往往非常长(数万 Token),且每次请求都需重新计算。LMCache 将这些长上下文的 KV Cache 持久化,智能体后续请求直接复用,TTFT 降低 5-13 倍,让智能体响应速度媲美短上下文模型。
📌 案例:某 AI 编程助手集成 LMCache 后,平均响应延迟从 2.3s 降至 0.4s,用户体验质的飞跃。
场景二:企业级 RAG 知识增强服务
RAG 应用中,知识库文档的 KV Cache 可以在所有用户查询间共享。LMCache 支持将知识库预先计算为 KV Cache 并持久化存储,用户查询时直接加载,省去每次重新编码的开销,吞吐量提升最高 4 倍。
📌 案例:某金融研报分析平台使用 LMCache 缓存 200+ 份研报的 KV Cache,QPS 提升 3.8 倍,GPU 成本降低 60%。
场景三:多轮对话 SaaS 服务
多轮对话中,历史对话的 KV Cache 可以跨轮次复用。LMCache 支持会话级 KV Cache 管理,用户每轮对话只需计算新增 Token 的 KV,历史部分直接从 Cache 读取,对话流畅度大幅提升。
💡 推荐理由
LMCache 是我近期深入研究的 LLM 推理加速项目,推荐它的理由非常充分:
- 🏆 顶级机构背书:NVIDIA 官方文档推荐,PyTorch 基金会集成,生产级可靠性有保障
- 🚀 性能提升显著:TTFT 降低 13 倍、解码速度提升 4 倍,在长上下文场景效果尤为突出
- 🧩 模块化设计优雅:与推理引擎解耦的独立守护进程架构,既不入侵原有代码,又避免了引擎崩溃导致 Cache 丢失的问题
- 🔧 集成成本低:已原生集成 vLLM、SGLang 等主流推理引擎,pip install 后即可使用
- 📈 生态迅速成长:2025 年 8 月突破 5000 Stars,目前已超 10000 Stars,社区活跃度持续攀升
如果你正在构建基于长上下文的 AI 应用(智能体、RAG、多轮对话),LMCache 几乎是必选项。它解决的是一个真实且棘手的工程问题——如何在高并发场景下高效复用 KV Cache,而不只是停留在论文里的美好想法。
📥 下载地址
🔗 GitHub 仓库:github.com/LMCache/LMCache
🌐 官方网站:lmcache.ai
📚 官方文档:docs.lmcache.ai
🐍 PyPI 安装:pip install lmcache
💬 Discord 社区:discord.gg/WzpQG8v5wY
📅 本文收录于《GitHub 热门 AI 开源项目》系列,持续更新中 🚀
