UI-TARS-desktop：字节跳动开源多模态GUI Agent，纯视觉理解让AI像人一样操作电脑，37.4K Stars让RPA自动化进入新时代

Q: UI-TARS-desktop：字节跳动开源多模态GUI Agent，纯视觉理解让AI像人一样操作电脑，37.4K Stars让RPA自动化进入新时代

字节跳动开源的UI-TARS-desktop，通过纯视觉理解实现GUI自动化操控，让AI像人一样操作电脑、浏览器和桌面应用。37.4K+ Stars，Apache-2.0许可，MCP原生集成。

🤖

UI-TARS-desktop

ByteDance · Apache-2.0 · 37.4K ⭐

字节跳动开源的多模态 AI Agent 技术栈，通过纯视觉理解实现 GUI 自动化操控，让 AI 像人一样操作电脑、浏览器和桌面应用。

📌 项目简介

UI-TARS-desktop 是字节跳动开源的端到端多模态 AI Agent 框架，包含两大核心组件：Agent TARS（通用多模态 AI Agent 技术栈）和 UI-TARS Desktop（基于 UI-TARS 系列模型的桌面原生 GUI Agent 应用）。项目基于纯视觉理解，无需依赖应用 API，通过多模态大模型直接识别 GUI 元素，真正实现”像人一样操作电脑”。

37.4K

GitHub Stars

3.7K

Forks

Apache

开源许可

TypeScript

主要语言

⚙️ 安装要求和过程

环境要求

Node.js ≥ 22（必需，项目使用 .node-version 指定 22+）
pnpm（推荐包管理器）
支持 Windows / macOS / Linux 三平台
AI 模型 API Key（火山引擎/Anthropic/OpenAI 等，或本地部署 UI-TARS 模型）

快速安装（Agent TARS CLI）

# 方式1: npx 直接启动（无需安装）
npx @agent-tars/cli@latest

# 方式2: 全局安装
npm install @agent-tars/cli@latest -g
agent-tars --provider volcengine   --model doubao-1-5-thinking-vision-pro-250428   --apiKey <你的API密钥>

# 方式3: 使用 Anthropic Claude
agent-tars --provider anthropic   --model claude-3-7-sonnet-latest   --apiKey <你的API密钥>

💡 UI-TARS Desktop 桌面版可从 agent-tars.com 下载安装，支持本地算子和远程算子两种模式。

🚀 核心功能

🖱️ 纯视觉 GUI 操控

基于 UI-TARS 系列多模态大模型，通过截图视觉识别直接定位 GUI 元素，实现精准的鼠标点击、键盘输入和拖拽操作，无需应用 API 接入。支持 Windows、macOS、浏览器多平台。

🌐 混合浏览器 Agent

支持 GUI Agent 视觉定位、DOM 操作或两者混合的浏览器控制策略。既可以像人一样”看”网页并点击，也可以直接操作 DOM，灵活应对各类网页自动化场景。

🔄 事件流协议（Event Stream Protocol）

协议驱动的事件流支持上下文工程和 Agent UI 构建，让开发者可以实时监控 Agent 执行过程、干预决策流程，并基于事件流构建自定义 Agent 交互界面。

🧰 MCP 原生集成

内核基于 MCP（Model Context Protocol）构建，同时支持挂载 MCP 服务器对接各类真实世界工具。可无缝接入 Claude Code、Cursor 等 AI 编程助手，扩展 Agent 工具调用能力。

🤖 双形态：CLI + 桌面应用

同时提供 Agent TARS CLI（支持无头服务器模式）和 UI-TARS Desktop 原生桌面应用。CLI 适合开发者和服务端部署，桌面应用提供图形化界面，降低非技术用户使用门槛。

💡 典型使用场景

🏨

自动化订票/预订

通过自然语言指令”帮我在北京找一家500元以内的酒店，距离故宫近”，Agent 自动打开浏览器、搜索、筛选并下单，全程无需人工干预。

💻

跨应用工作流自动化

自动操作 Excel + 浏览器 + 邮件客户端，完成数据抓取、处理、发送的完整工作流。例如：每日自动从网站抓取数据、更新表格、发送报告邮件。

🧪

GUI 自动化测试

替代传统 Selenium/Playwright，通过视觉理解自动测试桌面应用和 Web 界面。无需维护选择器，界面对齐方式变化也不会影响测试稳定性。

🤝

AI 编程助手扩展

接入 Claude Code / Cursor，让 AI 编程助手不仅能写代码，还能自动操作浏览器验证功能、运行桌面应用测试，实现真正的端到端开发自动化。

✨ 推荐理由

纯视觉理解是 GUI 自动化的未来。传统 RPA 工具依赖应用 API 或 DOM 选择器，界面稍有变化就会失效。UI-TARS 通过多模态大模型”看”屏幕，真正模拟人的操作方式，从根本上解决了 GUI 自动化的脆弱性问题。

字节跳动技术实力保障。作为豆包手机的核心技术支撑，UI-TARS 已在生产环境中验证，不是实验室项目。37K+ Stars 和 3.7K+ Forks 也证明了社区的认可。

生态完善，开箱即用。MCP 原生集成让它可以无缝接入现有 AI 工具链；CLI + 桌面应用双形态覆盖开发者和普通用户；支持本地模型和云端 API 双模式部署，兼顾隐私和性能。

🔗 下载地址

💻

GitHub 仓库

bytedance/UI-TARS-desktop

📊 项目动态

2026-02：UI-TARS-desktop 开源，登顶 GitHub 热榜，Star 数突破 26K
2026-06：Star 数突破 37K，社区持续活跃，Discord 成员快速增长
作为豆包手机核心技术支撑，生产环境验证可靠性
支持 UI-TARS/Seed-1.5-VL/1.6 系列最新模型

📅 数据更新至 2026年6月28日 | 信息来源：GitHub