Scrapling：能自适应网页改版的 Python 爬虫框架，GitHub 6.1 万星

Q: Scrapling：能自适应网页改版的 Python 爬虫框架，GitHub 6.1 万星

Scrapling 是一个自适应的 Python 网页爬取框架，支持从单次请求到全站大规模爬取，内置反爬对抗、动态页面渲染和 MCP 服务器集成，GitHub 6.1 万星。

项目简介

Scrapling 是一个自适应的 Python 网页爬取框架，由开发者 D4Vinci 在 GitHub 上发布，能够优雅地处理从单次 HTTP 请求到全站大规模爬取的各种场景。它既保留了 Scrapy 式的 Spider API，又在反爬对抗、动态页面渲染、AI 集成等方向做了大量现代化扩展。截至 2026 年 6 月，项目已在 GitHub 收获超过 6.1 万 Star，是今年爬取类工具里增长最快的开源项目之一。

安装要求和过程

环境要求：Python 3.10 及以上版本。

基础安装

pip install scrapling

基础安装仅包含解析引擎，不包含浏览器相关依赖。如果需要爬取动态渲染页面，需要额外安装 fetchers 组件。

完整安装（推荐）

# 安装爬虫器依赖（含 Playwright）
pip install "scrapling[fetchers]"

# 安装浏览器及系统依赖（会自动下载 Chromium）
scrapling install

# 强制重装
scrapling install --force

Docker 方式（生产推荐）

docker pull pyd4vinci/scrapling
docker run -it pyd4vinci/scrapling

全功能安装

# 安装所有功能（MCP 服务器、交互式 Shell 等）
pip install "scrapling[all]"

核心功能

自适应元素跟踪——网站结构变更后，Scrapling 可以自动重新定位之前配置好的目标元素，不需要每次改版都手动更新选择器。支持 CSS 选择器、XPath、标签过滤、文本搜索、正则搜索等多种定位方式。
多层反爬对抗——内置 StealthyFetcher，可以模拟真实浏览器的 TLS 指纹（impersonate Chrome），绕过 Cloudflare Turnstile 等常见反爬机制。支持代理轮换（ProxyRotator）、DNS over HTTPS（防止 DNS 泄露）。
动态页面渲染——通过 DynamicFetcher 集成 Playwright Chromium，支持在头部模式下加载 JavaScript 渲染后的页面，并等待网络空闲（network_idle）后再提取内容。这对现代前端框架搭建的网站非常关键。
内置 MCP 服务器——Scrapling 自带一个 MCP（Model Context Protocol）服务器，可以直接对接 Claude、Cursor 等 AI 编程工具。AI 可以通过它发起真实的网页请求、提取结构化数据，而不需要把整个网页内容都塞进上下文。
类 Scrapy API + 流式爬取——如果你用过 Scrapy，上手 Scrapling 的 Spider 几乎零成本。还支持流式模式（stream()），可以实时获取爬取结果，不需要等整个爬虫跑完。支持爬取暂停/恢复（checkpoint）。

典型使用场景

场景一：AI 训练数据采集

训练一个垂直领域 LLM 最头疼的事之一就是高质量语料的获取。用 Scrapling 可以稳定地批量采集目标网站的结构化文本（文章正文、评论、产品描述等），配合它的自适应跟踪能力，即使目标网站偶尔改版也不会导致采集任务中断。内置的 MCP 服务器还能让 AI 直接参与到采集策略的调整中。

场景二：竞品价格/库存监控

电商场景里经常需要定时抓取竞品的价格、库存、促销信息。Scrapling 的会话管理（FetcherSession）和代理轮换能力可以在不被封禁的前提下持续获取数据，DynamicFetcher 则能处理那些需要 JavaScript 渲染才能看到价格的现代电商站点。

下载地址

GitHub 仓库：https://github.com/D4Vinci/Scrapling（61k+ Stars）
官方文档：https://scrapling.readthedocs.io/en/latest/
PyPI 安装：pip install scrapling
Docker 镜像：docker pull pyd4vinci/scrapling
开源协议：BSD-3-Clause（可商用，较为宽松）
最新版本：v0.4.8（2026 年 5 月 11 日发布）

Scrapling：能自适应网页改版的 Python 爬虫框架，GitHub 6.1 万星

项目简介

安装要求和过程

基础安装

完整安装（推荐）

Docker 方式（生产推荐）

全功能安装

核心功能

典型使用场景

场景一：AI 训练数据采集

场景二：竞品价格/库存监控

推荐理由

下载地址

埃琳·布罗克维奇新活：给美国AI数据中心画地图，把争议摊在阳光下

谷歌AI把Google拼错了，大语言模型的拼写死穴到底能不能修好

微软联手Anthropic，把Claude智能体塞进Office全家桶

Robinhood 上线 AI Agent 炒股功能：可自主交易股票，亏损自负

OpenAI秘密递交IPO申请，万亿估值瞄准史上最大科技上市

AI 代理正在重塑互联网基础设施，AWS、微软、Cloudflare 纷纷入局

babyagi：22.3K Stars！任务驱动AI智能体，让AI逐步实现自我构建

mem0：39.9k Stars！AI Agent 通用记忆层，让AI真正记住你