### [Firecrawl — 134K+ Stars,为 AI Agent 量身打造的网页数据 API,搜索/爬取/交互一体化](https://www.willai.cc/article/2098) **Published:** 2026-06-18T12:40:04 **Author:** hiyoho **Excerpt:** 🔥 Firecrawl The API to search, scrape, and interact with the web at scale ⭐ 134K+ Stars 📦 TypeScript 📜 AGPL-3.0 📌 项目简介 F ![Firecrawl Logo](https://raw.githubusercontent.com/firecrawl/firecrawl/main/img/firecrawl_logo.png) # 🔥 Firecrawl The API to search, scrape, and interact with the web at scale ⭐ 134K+ Stars 📦 TypeScript 📜 AGPL-3.0 ## 📌 项目简介 **Firecrawl** 是专为 AI Agent 设计的网页数据 API,能将任意网页(含 JS 渲染)转换成 AI 友好的 Markdown/JSON 格式。它覆盖 96% 的网页,P95 延迟仅 3.4 秒,原生支持 MCP 协议,是 AI 应用获取实时网页数据的首选基础设施。 ## ⚙️ 安装要求和过程 ### 环境要求 **Python** 3.8+ (SDK 支持) **Node.js** 16+ (SDK 支持) **API Key** firecrawl.dev 注册 **自托管** Docker / Redis / Playwright ### 快速安装(Python SDK) ``` # 安装 Python SDK pip install firecrawl-py # 基础使用示例 from firecrawl import Firecrawl app = Firecrawl(api_key="fc-YOUR_API_KEY") # 搜索网页 result = app.search("Firecrawl tutorial", limit=5) # 爬取单个 URL result = app.scrape('https://example.com', formats=["markdown"]) print(result.markdown) ``` ### 快速安装(Node.js SDK) ``` # 安装 Node.js SDK npm install firecrawl # 基础使用示例 import { Firecrawl } from 'firecrawl'; const app = new Firecrawl({ apiKey: 'fc-YOUR_API_KEY' }); const result = await app.scrape('https://example.com', { formats: ['markdown'] }); console.log(result.markdown); ``` ### MCP 集成(AI Agent 一键接入) ``` # 一键安装 MCP Skill(支持 Claude Code、OpenClaw 等) npx -y firecrawl-cli@latest init --all --browser # 或手动配置 MCP 客户端 { "mcpServers": { "firecrawl-mcp": { "command": "npx", "args": ["-y", "firecrawl-mcp"], "env": { "FIRECRAWL_API_KEY": "fc-YOUR_API_KEY" } } } } ``` ### 自托管部署(Docker) ``` # 克隆仓库 git clone https://github.com/firecrawl/firecrawl.git cd firecrawl # 启动自托管服务(需要 Docker、Redis、Playwright) docker-compose up -d # 访问本地服务 # API: http://localhost:3002 # Playground: http://localhost:3002/playground ``` ## ⚡ 核心功能 ### 🔍 Search(智能搜索) 全网搜索并返回结果页的完整 Markdown 内容,不再只是返回标题和 URL。支持关键词搜索、URL 搜索、智能过滤,返回结果可直接供 AI Agent 使用,无需二次处理。 ### 🕷️ Scrape(智能爬取) 将任意 URL 转换为 Markdown、HTML、截图或结构化 JSON。自动处理 JS 渲染、代理轮换、速率限制、反爬虫策略,覆盖 96% 的网页,P95 延迟仅 3.4 秒。 ### 🤖 Agent(智能代理) 无需指定 URL,用自然语言描述需求即可自动完成数据收集。支持结构化输出(Pydantic Schema),可自动提取创始人信息、产品定价、竞品对比等复杂数据,返回类型安全的 Python 对象。 ### 🗺️ Crawl + Map(全站爬取与 URL 发现) Crawl 支持单次请求爬取整个网站的所有页面内容;Map 快速发现网站所有 URL,支持关键词筛选。支持异步批量爬取数千个 URL,适合大规模数据采集场景。 ### 🖱️ Interact(交互式爬取) 爬取页面后可执行点击、滚动、输入、等待、按键等交互操作,应对需要登录、搜索、翻页等动态场景。AI 提示驱动,无需编写复杂的选择器代码。 ## 💡 典型使用场景 ### 场景一:AI Agent 实时联网搜索 通过 Firecrawl 的 Search API,AI Agent 可以实时搜索网页并获取完整内容,不再受训练数据时效限制。结合 MCP 协议,Claude Code、OpenClaw 等 AI 工具可以一键调用 Firecrawl 获取最新信息。 ``` # AI Agent 使用 Firecrawl 搜索最新信息 result = app.search( query="2026年 AI 开源项目趋势", limit=10, scrape_options={"formats": ["markdown"]} ) # result 包含搜索结果 + 每个结果的完整 Markdown 内容 ``` ### 场景二:RAG 应用网页数据注入 RAG(检索增强生成)应用需要大量外部数据,Firecrawl 可以批量爬取指定网站内容并转换为 Markdown,直接注入向量数据库。支持智能等待、JS 渲染、反爬虫绕过,大幅提升 RAG 应用的数据质量。 ``` # 批量爬取文档网站,用于 RAG docs = app.crawl( url="https://docs.example.com", limit=1000, scrape_options={"formats": ["markdown", "html"]} ) # 将 docs 存入向量数据库(如 Milvus、Pinecone) ``` ### 场景三:竞品价格监控与数据分析 使用 Agent API 自动收集竞品定价、功能对比、用户评价等数据,无需手动指定 URL,只需用自然语言描述需求。支持结构化输出,直接返回类型安全的 JSON 数据,可接入自动化分析流程。 ``` # 使用 Agent 自动收集竞品定价 result = app.agent( prompt="Compare pricing of Firecrawl, ScrapingBee, and Apify", schema=PricingComparisonSchema ) print(result.data) # 结构化 JSON 输出 ``` ## ❤️ 推荐理由 在 AI Agent 和 RAG 应用爆发式增长的今天,**如何获取实时、高质量的网页数据**成为了一个核心痛点。传统爬虫工具要么太底层(需要自己处理代理、JS 渲染、反爬虫),要么不够 AI 友好(返回脏 HTML,需要额外清洗)。 Firecrawl 完美解决了这个问题: - 🌟 **AI 原生设计**:输出直接是 Markdown/JSON,无需额外清洗,降低 token 消耗 - 🌟 **高可靠性**:覆盖 96% 的网页,自动处理 JS 渲染、代理轮换、速率限制 - 🌟 **高速度**:百万级页面爬取 P95 延迟仅 3.4 秒,适合实时 AI 应用 - 🌟 **MCP 原生支持**:一键接入主流 AI Agent 工具,无需复杂配置 - 🌟 **多语言 SDK**:Python、Node.js、Java、Rust、Elixir 全覆盖 - 🌟 **开源可自托管**:AGPL-3.0 许可,数据隐私完全自主可控 **💡 个人使用心得**:Firecrawl 已成为我构建 AI Agent 的标配工具。以前需要组合使用 requests + BeautifulSoup + Playwright + 代理池才能完成的任务,现在一行代码就能解决。特别是它的 Agent API,用自然语言描述需求即可自动收集数据,大大降低了数据采集的门槛。如果你正在构建需要实时网页数据的 AI 应用,Firecrawl 绝对值得一试! ## 📊 项目数据 ⭐ 134K+ GitHub Stars 🍴 7.8K+ Forks 👥 375+ Contributors 📦 5+ 官方 SDK ## 📥 下载地址 [🔗 GitHub 仓库](https://github.com/firecrawl/firecrawl) [🌐 官方网站](https://firecrawl.dev) [📚 官方文档](https://docs.firecrawl.dev) [🎮 在线试用](https://firecrawl.dev/playground) 支持 Python、Node.js、Java、Rust、Elixir 等多语言 SDK • 开源 AGPL-3.0 许可 • 支持自托管部署 **Tags:** AI, AI Agent, AI开源项目, Firecrawl, LLM, TypeScript, 开源, 数据提取, 网络爬虫, 网页抓取 **Categories:** 开源项目 ---