📦 项目简介
chatgpt-retrieval-plugin 是 OpenAI 官方开源的 ChatGPT 检索插件模板,它是 RAG(检索增强生成) 领域的鼻祖级项目,让 ChatGPT 能够访问自定义数据源。
这个项目展示了如何让大模型动态访问外部知识库,而不是仅仅依赖训练数据。它是现在所有 RAG 应用的”祖师爷”。
⚙️ 安装要求和过程
环境要求
- Python:3.8+(推荐 3.10+)
- 向量数据库:Pinecone / Weaviate / Qdrant(任选其一)
- OpenAI API Key:必需(用于 Embedding 和 ChatGPT)
- 内存:建议 8GB+(本地测试可降级)
快速安装步骤
# 1. 克隆项目
git clone https://github.com/openai/chatgpt-retrieval-plugin.git
cd chatgpt-retrieval-plugin
# 2. 安装依赖
pip install -r requirements.txt
# 3. 配置环境变量
cp .env.example .env
# 编辑 .env,填入你的 OpenAI API Key 和向量数据库配置
# 4. 构建向量索引
python scripts/process_docs.py
# 5. 启动服务
uvicorn server.main:app --reload --port 8000
安装完成后,在 ChatGPT Plugins 模式中添加本地插件,指向 http://localhost:8000 即可。
🔥 核心功能
1. 向量检索(核心能力)
将文档切片后转化为向量,存储到 Pinecone 等向量数据库。用户提问时,系统自动检索最相关的文档片段,注入到 ChatGPT 的上下文中。
2. 递归爬取(数据接入)
内置 scripts/process_docs.py 支持递归爬取网站内容(基于 BeautifulSoup),自动处理 HTML、PDF、Markdown 等多种格式。
3. 元数据过滤(精准召回)
支持为文档添加元数据标签(来源、日期、作者等),检索时可根据元数据进行过滤,大幅提升召回精准度。
4. 插件标准接口(OpenAI 官方规范)
严格遵循 OpenAI Plugin 规范(/.well-known/ai-plugin.json、/openapi.yaml),可作为开发自定义 ChatGPT 插件的参考模板。
💡 典型使用场景
场景一:企业知识库问答
将公司内部文档(产品手册、API 文档、HR 政策)向量化后接入 ChatGPT,员工可以直接用自然语言查询,比如”我们公司的报销流程是什么?”,ChatGPT 会从知识库中精准召回答案。
价值:替代传统关键词搜索,问答准确率提升 60%+。
场景二:技术文档助手
开源项目维护者可以将项目文档(README、Wiki、Issue 解答)接入插件,用户在使用 ChatGPT 时可以直接获得项目相关的准确回答,而不用担心模型产生幻觉。
价值:降低开源项目的使用门槛,减少重复解答。
🌟 推荐理由
这个项目最大的价值不在于代码本身(实际上代码量并不大),而在于它 定义了 RAG 的标准范式:
- 文档切片 → Embedding → 向量存储 → 检索召回 → 注入上下文 → 生成回答,这条链路现在是业界标配。
- 如果你想做知识库问答、企业 AI 助手、文档 Copilot,这个项目是最好的起点。
- 虽然 OpenAI 后来推出了 Assistants API 和 GPTs,底层逻辑依然和这个插件一脉相承。
值得一提的是,现在很多热门项目(RAGFlow、AnythingLLM、Dify 的知识库功能)都能看到这个项目的影子。可以说,它是 RAG 应用的”黄埔军校”。
📥 下载地址
- GitHub 仓库:openai/chatgpt-retrieval-plugin
- OpenAI Plugins 文档:官方文档
- Pinecone 向量数据库:pinecone.io
如果你正在做知识库问答或者企业 AI 助手,这个项目值得深入研究。它不仅是 RAG 的鼻祖,更是理解大模型如何”连接外部知识”的最佳教材。
