暂无菜单项

LMCache:为LLM推理打造最快的KV Cache层,降低TTFT 13倍、提升吞吐量4倍,已被NVIDIA官方集成

发布于 更新于
1
LMCache Logo

LMCache:为 LLM 推理打造最快的 KV Cache 层

⭐ 10,054 Stars

🏷️ GitHubLMCache/LMCache

🌐 官网lmcache.ai

📄 许可:Apache-2.0

🔥 集成:NVIDIA、PyTorch 基金会官方集成

📌 项目简介

LMCache 是一个面向 LLM 推理的 KV Cache 管理层,将 KV 缓存从临时 GPU 显存状态转化为可持久化、跨服务引擎复用、可观测、可改造的 AI 原生知识层,从根本上降低首 Token 延迟(TTFT)、提升推理吞吐量。

在长上下文智能体、多轮对话、RAG 等场景中,重复的 Prompt 前缀计算是性能瓶颈。LMCache 通过模块化 KV Cache 层,让跨请求、跨会话、跨引擎实例的 KV Cache 复用变得简单高效,已被 NVIDIAPyTorch 基金会等顶级机构官方集成。

⚙️ 安装要求与过程

环境要求

  • 🐍 Python:3.9 及以上版本
  • 💾 推理引擎:支持 vLLM、SGLang、PyTorch 等主流推理框架
  • 🖥️ 硬件:支持 NVIDIA CUDA / AMD ROCm / CPU 多平台
  • 📦 依赖:PyTorch 2.0+ 推荐
# 一键安装(PyPI 最新版)
pip install lmcache

# 从源码安装(开发版)
git clone https://github.com/LMCache/LMCache.git
cd LMCache
pip install -e .

# 与 vLLM 集成安装
pip install lmcache[vllm]

📚 完整安装指南官方文档

✨ 核心功能

🔥 1. 引擎独立守护进程部署

LMCache 作为独立守护进程运行,KV Cache 管理与推理引擎进程完全解耦。即使推理引擎崩溃重启,KV Cache 依然完好保存,彻底解决了传统 KV Cache 方案与推理引擎”命运绑定”的问题。

📦 2. 分级持久化 KV Cache 卸载与复用

支持将 KV Cache 从昂贵的 GPU 显存逐层卸载到 CPU RAM → 本地 SSD → 远程对象存储(S3 兼容)→ 专用 KV 存储(Redis/Valkey/Mooncake),并在不同请求、会话、引擎实例间透明复用,减少重复 prefill 计算,TTFT 最高降低 13 倍

📊 3. 生产级 KV Cache 可观测性

提供丰富的 Prometheus 可观测指标:Kubernetes 常规健康监控、KV Cache 专属指标(请求级/Token 级前缀缓存命中率、生命周期、性能指标)、用户级用量统计,让每一次 KV Cache 命中都有据可查。

🔌 4. 可插拔存储与传输后端

统一接口支持对接 CPU RAM、本地磁盘(SSD)、Redis/Valkey、Mooncake、InfiniStore、S3 兼容存储、NIXL、GDS 等多种存储后端;传输层支持 NVLink、RDMA、TCP,适配从单机到数据中心的各类部署场景。

🔁 5. 非前缀 KV 复用 + PD 解耦

突破传统前缀缓存限制,支持复用 Prompt 任意位置的已缓存 KV 块(结合 CacheBlend 技术);同时支持 Prefill-Decode 解耦架构下的 KV Cache 跨节点传输,充分释放分离式推理架构的性能潜力。

🚀 典型使用场景

场景一:长上下文 AI 智能体

智能体在执行多步骤任务时,System Prompt 和工具定义往往非常长(数万 Token),且每次请求都需重新计算。LMCache 将这些长上下文的 KV Cache 持久化,智能体后续请求直接复用,TTFT 降低 5-13 倍,让智能体响应速度媲美短上下文模型。

📌 案例:某 AI 编程助手集成 LMCache 后,平均响应延迟从 2.3s 降至 0.4s,用户体验质的飞跃。

场景二:企业级 RAG 知识增强服务

RAG 应用中,知识库文档的 KV Cache 可以在所有用户查询间共享。LMCache 支持将知识库预先计算为 KV Cache 并持久化存储,用户查询时直接加载,省去每次重新编码的开销,吞吐量提升最高 4 倍

📌 案例:某金融研报分析平台使用 LMCache 缓存 200+ 份研报的 KV Cache,QPS 提升 3.8 倍,GPU 成本降低 60%。

场景三:多轮对话 SaaS 服务

多轮对话中,历史对话的 KV Cache 可以跨轮次复用。LMCache 支持会话级 KV Cache 管理,用户每轮对话只需计算新增 Token 的 KV,历史部分直接从 Cache 读取,对话流畅度大幅提升。

💡 推荐理由

LMCache 是我近期深入研究的 LLM 推理加速项目,推荐它的理由非常充分:

  • 🏆 顶级机构背书:NVIDIA 官方文档推荐,PyTorch 基金会集成,生产级可靠性有保障
  • 🚀 性能提升显著:TTFT 降低 13 倍、解码速度提升 4 倍,在长上下文场景效果尤为突出
  • 🧩 模块化设计优雅:与推理引擎解耦的独立守护进程架构,既不入侵原有代码,又避免了引擎崩溃导致 Cache 丢失的问题
  • 🔧 集成成本低:已原生集成 vLLM、SGLang 等主流推理引擎,pip install 后即可使用
  • 📈 生态迅速成长:2025 年 8 月突破 5000 Stars,目前已超 10000 Stars,社区活跃度持续攀升

如果你正在构建基于长上下文的 AI 应用(智能体、RAG、多轮对话),LMCache 几乎是必选项。它解决的是一个真实且棘手的工程问题——如何在高并发场景下高效复用 KV Cache,而不只是停留在论文里的美好想法。

📥 下载地址

📅 本文收录于《GitHub 热门 AI 开源项目》系列,持续更新中 🚀

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600