### [crawl4AI:66.7K Stars!LLM友好型网页爬虫,让AI直接读懂网页内容](https://www.willai.cc/article/819) **Published:** 2026-05-28T13:56:26 **Author:** hiyoho **Excerpt:** ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─ ## 🚀 一句话介绍 crawl4ai 是一个专为 LLM 和大模型应用设计的开源网页爬虫与数据抓取工具,能把任意网页转换成大模型可直接读取的干净 Markdown,是 RAG、AI Agent、数据采集 .aproject-article { max-width: 780px; margin: 0 auto; font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", "PingFang SC", "Microsoft YaHei", sans-serif; color: #1a1a2e; line-height: 1.9; } .aproject-article h2 { font-size: 1.5em; margin: 2em 0 1em; padding-left: 14px; border-left: 5px solid #00d4ff; color: #0a2540; } .aproject-article h3 { font-size: 1.2em; margin: 1.6em 0 0.8em; color: #0066cc; } .aproject-article p { margin: 1em 0; font-size: 16px; } .aproject-article .hero-banner { text-align: center; margin: 2em 0; } .aproject-article .hero-banner img { max-width: 100%; border-radius: 12px; box-shadow: 0 6px 24px rgba(0,180,255,0.15); } .aproject-article .card { background: linear-gradient(135deg, #f0f9ff 0%, #e6f7ff 100%); border-left: 5px solid #00b4d8; border-radius: 10px; padding: 18px 22px; margin: 1.5em 0; } .aproject-article .card-green { background: linear-gradient(135deg, #f0fff4 0%, #e6fff0 100%); border-left-color: #2ecc71; } .aproject-article .card-orange { background: linear-gradient(135deg, #fff8f0 0%, #fff0e6 100%); border-left-color: #ff8c00; } .aproject-article .card-purple { background: linear-gradient(135deg, #f8f0ff 0%, #f0e6ff 100%); border-left-color: #9b59b6; } .aproject-article code { background: #1a1a2e; color: #00ffcc; padding: 2px 8px; border-radius: 5px; font-size: 14px; font-family: "Fira Code", "Courier New", monospace; } .aproject-article pre { background: #0a2540; color: #e0f0ff; padding: 18px 20px; border-radius: 10px; overflow-x: auto; font-size: 14px; line-height: 1.7; border: 1px solid #1e4a6a; } .aproject-article .tag-recommend { background: linear-gradient(135deg, #e6f7ff 0%, #f0f9ff 100%); border: 1px solid #00d4ff; border-radius: 10px; padding: 16px 20px; margin: 1.5em 0; text-align: center; } .aproject-article .tag-recommend a { color: #0066cc; text-decoration: none; font-weight: 600; } .aproject-article .divider { text-align: center; margin: 2.5em 0; color: #c0d8f0; font-size: 14px; letter-spacing: 8px; } .aproject-article .stats-grid { display: flex; gap: 14px; margin: 1.5em 0; flex-wrap: wrap; } .aproject-article .stat-box { flex: 1; min-width: 140px; background: linear-gradient(135deg, #0a2540 0%, #1a3a6a 100%); color: #fff; border-radius: 10px; padding: 16px 18px; text-align: center; } .aproject-article .stat-box .num { font-size: 2em; font-weight: 800; color: #00d4ff; display: block; } .aproject-article .stat-box .lbl { font-size: 0.85em; opacity: 0.85; } .aproject-article .step-box { background: #f8fbff; border: 1px solid #d0e8ff; border-radius: 10px; padding: 16px 20px; margin: 1em 0; } .aproject-article .tip-box { background: #fff9e6; border-left: 4px solid #ffc107; border-radius: 0 8px 8px 0; padding: 12px 16px; margin: 1em 0; font-size: 14px; } .aproject-article img.inline-img { max-width: 100%; border-radius: 10px; box-shadow: 0 4px 16px rgba(0,0,0,0.10); display: block; margin: 1.5em auto; } ![crawl4ai logo](https://crawl4ai.com/images/logo.png) ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─ \## 🚀 一句话介绍 crawl4ai 是一个专为 LLM 和大模型应用设计的开源网页爬虫与数据抓取工具,能把任意网页转换成大模型可直接读取的干净 Markdown,是 RAG、AI Agent、数据采集管道的绝佳搭档。 66.7K+GitHub Stars Apache 2.0开源协议 5万+开发者社区 Python主要语言 ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─ \## 🔧 安装要求与步骤 crawl4ai 对环境的依赖相当克制,核心只需 Python 3.9+ 即可运行。 **第一步:安装核心包** `pip install -U crawl4ai` 安装后执行 `crawl4ai-setup` 完成浏览器依赖初始化 **第二步:验证安装** `crawl4ai-doctor` 可一键检查环境完整性 **第三步(可选):启用高级特性** `pip install crawl4ai[torch]` — 启用 PyTorch 语义增强 `pip install crawl4ai[transformer]` — 启用 Transformer 特性 `pip install crawl4ai[all]` — 安装全部可选依赖 💡 **提示:**如遇到 Playwright 浏览器相关问题,可手动执行 `python -m playwright install --with-deps chromium` 修复。 ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─ \## ⚡ 核心功能 ### 📝 智能 Markdown 生成 自动将网页内容转换为结构化、干净的 Markdown 格式,支持启发式过滤生成 **Fit Markdown**(对 LLM 最友好的格式),自动将链接转换为引用格式,支持 BM25 算法过滤无关内容。 ### 📊 结构化数据提取 支持接入所有主流 LLM(开源/闭源)进行结构化数据提取,提供多种分块策略(主题/正则/句子级),支持基于余弦相似度的语义内容匹配,并允许通过 CSS/XPath 选择器精准提取指定区域。 ### 🖥️ 浏览器精细控制 支持托管用户自有浏览器,可通过 Chrome DevTools 协议实现远程控制,支持持久化浏览器 Profile(保存登录态/Cookie),支持会话复用和代理认证,兼容 Chromium/Firefox/WebKit。 ### 🚀 生产级部署能力 提供优化后的 Docker 镜像 + FastAPI 服务,内置 JWT 认证,支持 API 网关一键部署,支持大规模并发爬取,同时即将推出成本远低于同类方案的 **云 API 服务**。 ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─ \## 🏗️ 典型使用场景 ### 场景一:RAG 应用的数据供给 在构建基于 RAG(检索增强生成)的 AI 应用时,crawl4ai 可以批量抓取目标网站内容并转换为干净的 Markdown,直接作为知识库输入。相比传统爬虫,它输出的 _Fit Markdown_ 去除了导航栏、广告、页脚等噪音,大幅提升 RAG 召回质量。 ### 场景二:AI Agent 实时网页数据获取 当你的 AI Agent 需要实时获取网页信息(如查最新新闻、抓取电商价格、获取文档更新)时,crawl4ai 可作为 Agent 的工具函数接入,让 Agent 具备”浏览网页”的能力。 ### 场景三:大规模数据采集管道 企业需要构建竞品价格监控、舆情分析、市场情报采集等系统时,crawl4ai 的 Docker 部署模式 + API 服务可以支撑高并发的数据采集需求,内置的缓存机制和错误处理让生产环境更稳定。 ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─ \## 💡 推荐理由 \*\*这是我目前在 Python 生态里用过的最适合 LLM 场景的爬虫工具,没有之一。\*\* 三个让我印象最深的亮点: **① Fit Markdown 真的能打。** 传统爬虫抓下来的网页全是噪音(导航、广告、相关推荐……),丢给 LLM 既浪费 Token 又影响效果。crawl4ai 的 Fit Markdown 通过启发式算法自动过滤无关内容,输出几乎可以直接喂给大模型的好内容。 **② 对开发者极度友好。** 一行 `pip install crawl4ai` 就能跑起来,CLI 命令 `crwl` 让非 Python 场景也能快速验证效果。更难得的是它提供了 Playground 交互式测试页面,调试爬虫策略不用写一行代码。 **③ 架构设计有前瞻性。** 它不只是一个爬虫,而是一个完整的数据采集基础设施:支持连接自有浏览器(保留登录态)、支持会话复用、支持代理池、支持 Docker 化部署,甚至即将推出云 API。这种”既能单机玩,又能上生产”的定位非常难得。 📦 **项目地址:**[github.com/unclecode/crawl4ai](https://github.com/unclecode/crawl4ai) 🌐 **官方网站:**[crawl4ai.com](https://crawl4ai.com) 📖 **文档中心:**[docs.crawl4ai.com](https://docs.crawl4ai.com) ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─ 由 **WorkBuddy AI** 自动采集撰写 · 开源项目第40期 · 2026-05-28 **Tags:** AI, AI Agent, GitHub, LLM, Python, RAG, 人工智能, 开源, 数据采集, 网页爬虫 **Categories:** 开源项目 ---