### [RAGFlow:基于深度文档理解的开源RAG引擎,让AI精准理解你的文档](https://www.willai.cc/article/480) **Published:** 2026-05-22T03:18:52 **Author:** hiyoho **Excerpt:** ## 📖 项目简介 **RAGFlow** 是一款基于**深度文档理解(DeepDoc)**的开源 RAG(检索增强生成)引擎。它能够结合大语言模型(LLM),从各种复杂格式的数据中精准提取知识,为 AI 应用提供可靠的问答能力。无论你是个 ![RAGFlow Logo](https://raw.githubusercontent.com/infiniflow/ragflow/main/docs/assets/logo.png) * * * \## 📖 项目简介 \*\*RAGFlow\*\* 是一款基于\*\*深度文档理解(DeepDoc)\*\*的开源 RAG(检索增强生成)引擎。它能够结合大语言模型(LLM),从各种复杂格式的数据中精准提取知识,为 AI 应用提供可靠的问答能力。无论你是个人开发者还是企业团队,RAGFlow 都能帮你构建专属的知识库问答系统。 \*\*GitHub Star:\*\* 81k+ ⭐ \*\*最新版本:\*\* v0.25.5 (2026年5月) \*\*开源协议:\*\* Apache-2.0 — \## 🔧 安装要求和过程 \### 环境要求 | 环境项 | 最低配置 | |——–|———-| | \*\*CPU\*\* | ≥ 4核 | | \*\*内存\*\* | ≥ 16 GB | | \*\*磁盘\*\* | ≥ 50 GB | | \*\*Docker版本\*\* | ≥ 24.0.0 | | \*\*Docker Compose\*\* | ≥ v2.26.1 | \*\*⚠️ 重要:\*\* 需确保系统参数 \`vm.max\_map\_count\` ≥ 262144 “\`bash \# 临时生效 sudo sysctl -w vm.max\_map\_count=262144 \# 永久生效 echo “vm.max\_map\_count=262144” >> /etc/sysctl.conf “\` \### 快速安装(Docker部署) \*\*1. 克隆仓库\*\* “\`bash git clone https://github.com/infiniflow/ragflow.git cd ragflow/docker “\` \*\*2. 启动服务(CPU版本)\*\* “\`bash docker compose -f docker-compose.yml up -d “\` \*\*3. 访问服务\*\* 服务启动后,浏览器访问 \`http://服务器IP地址\`(默认端口80) \*\*4. 配置LLM\*\* 在 \`service\_conf.yaml.template\` 中配置你使用的LLM厂商和对应的API\_KEY \*\*💡 提示:\*\* 如需GPU加速,修改 \`.env\` 文件设置 \`DEVICE=gpu\` — \## ⚡ 核心功能 \### 1️⃣ 高质量数据处理 基于\*\*深度文档理解(DeepDoc)\*\*技术,从格式复杂的非结构化数据中提取知识,支持Word、PPT、Excel、TXT、图片、扫描件、网页等多种异构数据源。 \### 2️⃣ 智能分块与可视化 提供丰富的模板化分块选项,分块逻辑可解释、可调整。支持分块可视化,允许用户人工干预优化,确保知识切分的精准性。 \### 3️⃣ 降低幻觉,可追溯来源 回答附带\*\*可追溯的引用来源\*\*,支持查看关键参考信息。可视化展示文本分块逻辑,大幅提升结果可信度。 \### 4️⃣ 自动化RAG工作流 适配个人和大型企业的RAG编排需求,支持自定义配置LLM和嵌入模型,支持多路召回+融合重排,提供直观的API,可无缝集成到业务系统中。 \### 5️⃣ Agent能力与生态集成 支持\*\*Agent工作流\*\*、\*\*MCP协议\*\*、\*\*记忆(Memory)功能\*\*。最新版本已支持 DeepSeek v4、Gemini 3 Pro、GPT-5 系列模型,并支持 Confluence、Notion、Discord、Google Drive 等数据源同步。 — \## 🎯 典型使用场景 \### 场景1:企业知识库问答 \*\*问题:\*\* 企业内部文档分散,员工查找信息困难 \*\*解决方案:\*\* 使用 RAGFlow 构建统一知识库,上传公司文档、手册、规范,员工通过自然语言提问即可快速获取准确答案,并附带原文引用。 \### 场景2:技术文档智能检索 \*\*问题:\*\* 技术文档篇幅长,开发者难以快速定位关键信息 \*\*解决方案:\*\* 将 API 文档、开发手册导入 RAGFlow,结合 LLM 实现智能问答,开发者可以直接询问”如何在XXX中实现YYY功能”,系统会返回精准的代码段和说明。 \### 场景3:个人学习笔记管理 \*\*问题:\*\* 学习资料繁多,复习时难以高效检索 \*\*解决方案:\*\* 将课程笔记、论文、书籍导入 RAGFlow,构建个人知识助手,随时提问巩固知识点,实现智能化学习。 — \## 💡 推荐理由 作为一名 AI 开发者和内容创作者,我为什么强烈推荐 RAGFlow? \*\*1. 真正理解复杂文档\*\* 不同于简单的文本切片,RAGFlow 的\*\*深度文档理解\*\*能力可以识别表格、公式、多栏布局等复杂结构,这在处理技术文档和学术论文时特别有用。 \*\*2. 可视化的分块调试\*\* 很多 RAG 系统的痛点是”黑盒分块”,你不知道文档是怎么被切分的。RAGFlow 提供\*\*分块可视化\*\*,让你可以直观看到知识切分效果,并手动调整,这大大提升了问答质量。 \*\*3. 开源且活跃\*\* 81k+ Star,Apache-2.0 协议,社区非常活跃。相比闭源的商业 RAG 服务,你可以完全掌控数据安全,也能根据需求定制功能。 \*\*4. 完整的 Agent 能力\*\* 最新版本支持 Agent 工作流和记忆功能,不仅能回答问题,还能执行复杂任务,比如”帮我总结本周所有文档的更新内容”。 \*\*5. 部署简单\*\* 一条 \`docker compose\` 命令就能跑起来,对新手非常友好。同时也支持源码部署,方便深度定制。 — \## 📥 下载地址 – \*\*GitHub 仓库:\*\* https://github.com/infiniflow/ragflow – \*\*官方网站:\*\* https://ragflow.io – \*\*云服务入口:\*\* https://cloud.ragflow.io – \*\*官方文档:\*\* https://ragflow.io/docs/dev/ – \*\*中文文档:\*\* https://ragflow.com.cn/docs – \*\*Discord 社区:\*\* https://discord.gg/NjYzJD3GM3 — \## 🏷️ 相关标签 \`RAG\` \`RAGFlow\` \`AI\` \`LLM\` \`AI Agent\` \`开源项目\` \`知识库\` \`检索增强生成\` — \*\*📌 系列文章:\*\* 本文是”GitHub热门AI开源项目介绍”系列的第10期。欢迎关注我的博客,获取更多 AI 开源项目的深度介绍! **Tags:** AI, AI Agent, GitHub, LLM, RAG, RAGFlow **Categories:** 开源项目 ---