### [UI-TARS-desktop:字节跳动开源多模态GUI Agent,纯视觉理解让AI像人一样操作电脑,37.4K Stars让RPA自动化进入新时代](https://www.willai.cc/article/2820) **Published:** 2026-06-28T05:34:48 **Author:** hiyoho **Excerpt:** 字节跳动开源的UI-TARS-desktop,通过纯视觉理解实现GUI自动化操控,让AI像人一样操作电脑、浏览器和桌面应用。37.4K+ Stars,Apache-2.0许可,MCP原生集成。 🤖 ## UI-TARS-desktop ByteDance · Apache-2.0 · 37.4K ⭐ 字节跳动开源的**多模态 AI Agent 技术栈**,通过纯视觉理解实现 GUI 自动化操控,让 AI 像人一样操作电脑、浏览器和桌面应用。 ### 📌 项目简介 **UI-TARS-desktop** 是字节跳动开源的端到端多模态 AI Agent 框架,包含两大核心组件:**Agent TARS**(通用多模态 AI Agent 技术栈)和 **UI-TARS Desktop**(基于 UI-TARS 系列模型的桌面原生 GUI Agent 应用)。项目基于纯视觉理解,无需依赖应用 API,通过多模态大模型直接识别 GUI 元素,真正实现”像人一样操作电脑”。 37.4K GitHub Stars 3.7K Forks Apache 开源许可 TypeScript 主要语言 ### ⚙️ 安装要求和过程 #### 环境要求 - Node.js ≥ 22(必需,项目使用 `.node-version` 指定 22+) - pnpm(推荐包管理器) - 支持 Windows / macOS / Linux 三平台 - AI 模型 API Key(火山引擎/Anthropic/OpenAI 等,或本地部署 UI-TARS 模型) #### 快速安装(Agent TARS CLI) ``` # 方式1: npx 直接启动(无需安装) npx @agent-tars/cli@latest # 方式2: 全局安装 npm install @agent-tars/cli@latest -g agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey <你的API密钥> # 方式3: 使用 Anthropic Claude agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey <你的API密钥> ``` 💡 UI-TARS Desktop 桌面版可从 [agent-tars.com](https://agent-tars.com) 下载安装,支持本地算子和远程算子两种模式。 ### 🚀 核心功能 1 #### 🖱️ 纯视觉 GUI 操控 基于 UI-TARS 系列多模态大模型,通过截图视觉识别直接定位 GUI 元素,实现精准的鼠标点击、键盘输入和拖拽操作,无需应用 API 接入。支持 Windows、macOS、浏览器多平台。 2 #### 🌐 混合浏览器 Agent 支持 GUI Agent 视觉定位、DOM 操作或两者混合的浏览器控制策略。既可以像人一样”看”网页并点击,也可以直接操作 DOM,灵活应对各类网页自动化场景。 3 #### 🔄 事件流协议(Event Stream Protocol) 协议驱动的事件流支持上下文工程和 Agent UI 构建,让开发者可以实时监控 Agent 执行过程、干预决策流程,并基于事件流构建自定义 Agent 交互界面。 4 #### 🧰 MCP 原生集成 内核基于 MCP(Model Context Protocol)构建,同时支持挂载 MCP 服务器对接各类真实世界工具。可无缝接入 Claude Code、Cursor 等 AI 编程助手,扩展 Agent 工具调用能力。 5 #### 🤖 双形态:CLI + 桌面应用 同时提供 Agent TARS CLI(支持无头服务器模式)和 UI-TARS Desktop 原生桌面应用。CLI 适合开发者和服务端部署,桌面应用提供图形化界面,降低非技术用户使用门槛。 ### 💡 典型使用场景 🏨 #### 自动化订票/预订 通过自然语言指令”帮我在北京找一家500元以内的酒店,距离故宫近”,Agent 自动打开浏览器、搜索、筛选并下单,全程无需人工干预。 💻 #### 跨应用工作流自动化 自动操作 Excel + 浏览器 + 邮件客户端,完成数据抓取、处理、发送的完整工作流。例如:每日自动从网站抓取数据、更新表格、发送报告邮件。 🧪 #### GUI 自动化测试 替代传统 Selenium/Playwright,通过视觉理解自动测试桌面应用和 Web 界面。无需维护选择器,界面对齐方式变化也不会影响测试稳定性。 🤝 #### AI 编程助手扩展 接入 Claude Code / Cursor,让 AI 编程助手不仅能写代码,还能自动操作浏览器验证功能、运行桌面应用测试,实现真正的端到端开发自动化。 ### ✨ 推荐理由 **纯视觉理解是 GUI 自动化的未来。**传统 RPA 工具依赖应用 API 或 DOM 选择器,界面稍有变化就会失效。UI-TARS 通过多模态大模型”看”屏幕,真正模拟人的操作方式,从根本上解决了 GUI 自动化的脆弱性问题。 **字节跳动技术实力保障。**作为豆包手机的核心技术支撑,UI-TARS 已在生产环境中验证,不是实验室项目。37K+ Stars 和 3.7K+ Forks 也证明了社区的认可。 **生态完善,开箱即用。**MCP 原生集成让它可以无缝接入现有 AI 工具链;CLI + 桌面应用双形态覆盖开发者和普通用户;支持本地模型和云端 API 双模式部署,兼顾隐私和性能。 ### 🔗 下载地址 [ 💻 GitHub 仓库 bytedance/UI-TARS-desktop ](https://github.com/bytedance/UI-TARS-desktop) [ 🌐 官方网站 agent-tars.com ](https://agent-tars.com) [ 📦 桌面版下载 Windows/macOS/Linux ](https://github.com/bytedance/UI-TARS-desktop/releases) [ 💬 Discord 社区 加入讨论 / 获取帮助 ](https://discord.gg/agent-tars) ### 📊 项目动态 - **2026-02**:UI-TARS-desktop 开源,登顶 GitHub 热榜,Star 数突破 26K - **2026-06**:Star 数突破 37K,社区持续活跃,Discord 成员快速增长 - 作为豆包手机核心技术支撑,生产环境验证可靠性 - 支持 UI-TARS/Seed-1.5-VL/1.6 系列最新模型 📅 数据更新至 2026年6月28日 | 信息来源:[GitHub](https://github.com/bytedance/UI-TARS-desktop) **Tags:** AI, AI Agent, AI开源项目, Apache-2.0, ByteDance, GUI代理, LLM, MCP, TypeScript, UI-TARS **Categories:** 开源项目 ---