Skyvern:21.8K+ Stars!AI 视觉浏览器自动化,让网页操作像对话一样自然
基于 LLM + 计算机视觉 · 告别脆弱的 XPath 选择器 · 自适应任意网站布局
📌 项目简介
Skyvern 是一款基于大语言模型(LLM)和计算机视觉的开源浏览器自动化工具。与传统依赖 XPath/选择器的脆弱自动化脚本不同,Skyvern 通过 AI 视觉理解网页结构,自动适配任意网站布局变化,真正实现了”一次编写,随处运行”的浏览器自动化体验。项目在 GitHub 已获得 21,880+ Stars,是 AI RPA 领域的热门开源项目。
21.8K+
GitHub Stars
64.4%
WebBench 准确率 SOTA
AGPL-3.0
开源协议
Playwright
兼容增强 SDK
⚙️ 安装要求和过程
方式一:pip 安装(推荐)
环境要求:Python 3.11 / 3.12 / 3.13;Windows 用户需安装 Rust 运行时和 VS C++ 开发工具
# 安装 Skyvern
pip install "skyvern[all]"
# 快速启动(默认 SQLite)
skyvern quickstart
# 如需 PostgreSQL
skyvern quickstart --postgres
方式二:Docker Compose(完全容器化)
git clone https://github.com/Skyvern-AI/skyvern.git
cd skyvern
cp .env.example .env # 编辑 .env 填入 LLM API Key
docker compose up -d
# 访问 http://localhost:8080
方式三:Skyvern Cloud(免维护)
直接访问 app.skyvern.com 注册使用,自带反机器人检测、代理网络、验证码破解等高级功能。
⭐ 核心功能
① AI 增强的浏览器操作
通过 4 个核心 AI 指令(act / extract / validate / prompt)用自然语言驱动浏览器,无需手写选择器。同时兼容所有 Playwright 原生操作,支持”传统选择器 + AI 定位”混合模式。
② 可视化工作流编排
提供无代码工作流构建器,支持浏览器任务、数据提取、循环、条件判断、HTTP 请求、自定义代码块等能力,非技术用户也能搭建复杂自动化流程。
③ 强大的认证与 2FA 支持
内置密码管理器集成(Bitwarden / 1Password / LastPass),支持 TOTP 双因素认证(Google Authenticator / Authy)、邮件 2FA、短信 2FA,可自动化登录各类需认证的网站。
④ 多 LLM 兼容 + MCP 协议支持
支持 OpenAI、Anthropic Claude、Azure OpenAI、AWS Bedrock、Gemini、Ollama、OpenRouter 及任何 OpenAI 兼容端点;同时支持 MCP 协议,可对接 Zapier、Make.com、N8N 等平台。
⑤ 实时浏览器直播与本地 Chrome 控制
可实时直播浏览器视口画面便于调试;支持接入本地已安装的 Chrome(通过 CDP 调试协议),复用已有 Cookie、登录态和浏览器扩展,真正实现”人机协同”自动化。
🚀 典型使用场景
场景一:跨网站发票自动下载
企业需要定期从多个供应商网站下载发票,传统 RPA 脚本逢网站改版即失效。使用 Skyvern,只需描述”登录各供应商网站,下载上月发票并保存到指定目录”,AI 即可自动适配不同网站布局完成任务,网站改版也无需维护脚本。
场景二:批量联系表单提交
市场团队需要在上百个网站的”联系我们”表单提交产品咨询。Skyvern 通过 AI 视觉理解每个表单的字段含义,自动填写并提交,无需为每个网站单独编写填表规则,效率提升 10 倍以上。
场景三:求职申请自动填写
在多个招聘平台投递简历时,Skyvern 可自动识别各平台的简历上传入口和表单字段,自动填写个人信息并提交申请,大幅减少重复性操作,让求职者专注于准备面试。
💡 推荐理由
作为一名经常需要与多个网站打交道的开发者,我深刻体会过传统浏览器自动化的痛点——XPath 一改,脚本全挂。Skyvern 最打动我的是它”用 AI 视觉理解网页”的思路:不再依赖固定的 DOM 选择器,而是由 LLM 实时分析页面视觉结构,真正做到了”布局无关”。
另一个亮点是它与 Playwright 的深度兼容——你可以在同一个脚本里混合使用传统选择器(高性能)和 AI 操作(高适配),这种渐进式采用策略对已有自动化代码库的团队非常友好。加上对工作流编排、多 LLM 支持和企业级认证能力的覆盖,Skyvern 正在重新定义”AI + RPA”的边界。
⚠️ 注意:核心代码以 AGPL-3.0 开源,但反机器人检测等高级功能仅在托管云服务中提供。如果只是内部使用,完全够用;如果用于商业产品,建议评估云服务的许可方案。
🔗 下载地址
📌 更多 GitHub 热门 AI 开源项目介绍,请持续关注本站「开源项目」栏目
