📦 项目简介
browser-use 是一个让AI代理能够自动操作浏览器的开源工具,通过自然语言指令即可完成各类网页操作,无需手动编写复杂的爬虫逻辑。无论是表单填写、网页信息提取,还是复杂的多步骤网页交互,AI都能帮你自动完成。
⚙️ 安装要求和过程
环境要求
- Python版本:≥3.11
- 推荐包管理工具:uv(也可使用pip等常规Python包管理工具)
- 浏览器:自动安装Chromium(也可使用本地已安装的Chrome/Edge)
快速安装步骤
# 1. 初始化项目并安装browser-use
uv init && uv add browser-use && uv sync
# 2. 若本地未安装Chromium,执行以下命令自动安装
uvx browser-use install可选配置
- 如需使用云端能力,可前往 Browser Use Cloud 获取API Key,在
.env文件中配置即可 - 支持对接多种LLM提供商:自带优化后的
ChatBrowserUse模型,也支持Google Gemini、Anthropic Claude、OpenAI等主流模型,还可对接Ollama运行本地模型
💡 核心功能
- 自然语言控制浏览器:支持AI代理通过自然语言指令自动完成各类网页操作,无需手动编写复杂爬虫逻辑
- 双模式支持:提供开源版本和云端托管版本两种使用模式,可按需选择
- 丰富的工具集成:支持集成1000+第三方工具(如Gmail、Slack、Notion等),支持自定义工具扩展
- CLI命令行支持:提供CLI命令行快速操作,提供持久化浏览器会话,适合快速迭代调试
- AI编码工具集成:支持Claude Code等AI编码工具集成,可直接对接AI工作流
云端版本专属能力
- 更强的复杂任务处理能力,任务完成准确率远高于开源版本
- 内置隐身浏览器指纹、代理轮换、验证码自动解决能力,避免被网站反爬检测
- 支持持久化文件系统和记忆,适合长期运行的代理任务
- 无需本地部署,开箱即用,支持大规模并行任务调度
🚀 典型使用场景
- 个人效率提升:自动完成重复性网页操作,如批量填写表单、自动购物、自动整理网页信息等
- AI应用开发:作为AI代理的浏览器交互层,让AI具备操作网页的能力,开发智能助手类产品
- 企业级自动化:结合云端版本的扩展能力,实现大规模网页数据采集、业务流程自动化等场景
- 编码辅助:对接Cursor、Claude Code等AI编码工具,让AI可以直接操作浏览器验证代码效果、调试网页相关问题
🌟 推荐理由
在AI Agent爆发的2026年,让AI具备操作浏览器的能力,就像给AI装上了一双”眼睛”和”手”。browser-use不仅简化了浏览器自动化的开发流程,更重要的是它让AI真正能够与世界互动——从简单的信息查询到复杂的多步骤业务流程,都可以通过自然语言来完成。
特别推荐它的双模式设计:如果你只是想快速尝试,开源版本足够使用;如果你需要生产级别的稳定性和扩展性,云端版本提供了完整的解决方案。这种灵活的设计理念,让不同需求的开发者都能找到适合自己的使用方式。
另外,它对主流LLM的原生支持也是一大亮点。无论你用的是Claude、GPT还是本地部署的模型,都能无缝对接。这种开放性的设计,正是开源项目的魅力所在。
📥 下载地址
- 官方网站:https://browser-use.com
- GitHub仓库:https://github.com/browser-use/browser-use (95.3k+ Stars)
- 云端版本:https://cloud.browser-use.com
- 开源版本文档:https://docs.browser-use.com/open-source/introduction
- 云端版本文档:https://docs.cloud.browser-use.com
⭐ 如果你觉得这个项目有帮助,欢迎到GitHub上给它一个Star!
