暂无菜单项

ChatGPT Retrieval Plugin:20k+ Stars!RAG鼻祖项目,让ChatGPT拥有外部知识

发布于 更新于
3

📦 项目简介

chatgpt-retrieval-plugin 是 OpenAI 官方开源的 ChatGPT 检索插件模板,它是 RAG(检索增强生成) 领域的鼻祖级项目,让 ChatGPT 能够访问自定义数据源。

这个项目展示了如何让大模型动态访问外部知识库,而不是仅仅依赖训练数据。它是现在所有 RAG 应用的”祖师爷”。

⚙️ 安装要求和过程

环境要求

  • Python:3.8+(推荐 3.10+)
  • 向量数据库:Pinecone / Weaviate / Qdrant(任选其一)
  • OpenAI API Key:必需(用于 Embedding 和 ChatGPT)
  • 内存:建议 8GB+(本地测试可降级)

快速安装步骤

# 1. 克隆项目
git clone https://github.com/openai/chatgpt-retrieval-plugin.git
cd chatgpt-retrieval-plugin

# 2. 安装依赖
pip install -r requirements.txt

# 3. 配置环境变量
cp .env.example .env
# 编辑 .env,填入你的 OpenAI API Key 和向量数据库配置

# 4. 构建向量索引
python scripts/process_docs.py

# 5. 启动服务
uvicorn server.main:app --reload --port 8000

安装完成后,在 ChatGPT Plugins 模式中添加本地插件,指向 http://localhost:8000 即可。

🔥 核心功能

1. 向量检索(核心能力)

将文档切片后转化为向量,存储到 Pinecone 等向量数据库。用户提问时,系统自动检索最相关的文档片段,注入到 ChatGPT 的上下文中。

2. 递归爬取(数据接入)

内置 scripts/process_docs.py 支持递归爬取网站内容(基于 BeautifulSoup),自动处理 HTML、PDF、Markdown 等多种格式。

3. 元数据过滤(精准召回)

支持为文档添加元数据标签(来源、日期、作者等),检索时可根据元数据进行过滤,大幅提升召回精准度。

4. 插件标准接口(OpenAI 官方规范)

严格遵循 OpenAI Plugin 规范(/.well-known/ai-plugin.json/openapi.yaml),可作为开发自定义 ChatGPT 插件的参考模板。

💡 典型使用场景

场景一:企业知识库问答

将公司内部文档(产品手册、API 文档、HR 政策)向量化后接入 ChatGPT,员工可以直接用自然语言查询,比如”我们公司的报销流程是什么?”,ChatGPT 会从知识库中精准召回答案。

价值:替代传统关键词搜索,问答准确率提升 60%+。

场景二:技术文档助手

开源项目维护者可以将项目文档(README、Wiki、Issue 解答)接入插件,用户在使用 ChatGPT 时可以直接获得项目相关的准确回答,而不用担心模型产生幻觉。

价值:降低开源项目的使用门槛,减少重复解答。

🌟 推荐理由

这个项目最大的价值不在于代码本身(实际上代码量并不大),而在于它 定义了 RAG 的标准范式

  1. 文档切片 → Embedding → 向量存储 → 检索召回 → 注入上下文 → 生成回答,这条链路现在是业界标配。
  2. 如果你想做知识库问答、企业 AI 助手、文档 Copilot,这个项目是最好的起点。
  3. 虽然 OpenAI 后来推出了 Assistants APIGPTs,底层逻辑依然和这个插件一脉相承。

值得一提的是,现在很多热门项目(RAGFlow、AnythingLLM、Dify 的知识库功能)都能看到这个项目的影子。可以说,它是 RAG 应用的”黄埔军校”。

📥 下载地址

如果你正在做知识库问答或者企业 AI 助手,这个项目值得深入研究。它不仅是 RAG 的鼻祖,更是理解大模型如何”连接外部知识”的最佳教材。

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600