暂无菜单项

UI-TARS-desktop:字节跳动开源多模态GUI Agent,纯视觉理解让AI像人一样操作电脑,37.4K Stars让RPA自动化进入新时代

发布于
1

🤖

UI-TARS-desktop

ByteDance · Apache-2.0 · 37.4K ⭐

字节跳动开源的多模态 AI Agent 技术栈,通过纯视觉理解实现 GUI 自动化操控,让 AI 像人一样操作电脑、浏览器和桌面应用。

📌 项目简介

UI-TARS-desktop 是字节跳动开源的端到端多模态 AI Agent 框架,包含两大核心组件:Agent TARS(通用多模态 AI Agent 技术栈)和 UI-TARS Desktop(基于 UI-TARS 系列模型的桌面原生 GUI Agent 应用)。项目基于纯视觉理解,无需依赖应用 API,通过多模态大模型直接识别 GUI 元素,真正实现”像人一样操作电脑”。

37.4K
GitHub Stars
3.7K
Forks
Apache
开源许可
TypeScript
主要语言

⚙️ 安装要求和过程

环境要求

  • Node.js ≥ 22(必需,项目使用 .node-version 指定 22+)
  • pnpm(推荐包管理器)
  • 支持 Windows / macOS / Linux 三平台
  • AI 模型 API Key(火山引擎/Anthropic/OpenAI 等,或本地部署 UI-TARS 模型)

快速安装(Agent TARS CLI)

# 方式1: npx 直接启动(无需安装)
npx @agent-tars/cli@latest

# 方式2: 全局安装
npm install @agent-tars/cli@latest -g
agent-tars --provider volcengine   --model doubao-1-5-thinking-vision-pro-250428   --apiKey <你的API密钥>

# 方式3: 使用 Anthropic Claude
agent-tars --provider anthropic   --model claude-3-7-sonnet-latest   --apiKey <你的API密钥>

💡 UI-TARS Desktop 桌面版可从 agent-tars.com 下载安装,支持本地算子和远程算子两种模式。

🚀 核心功能

1

🖱️ 纯视觉 GUI 操控

基于 UI-TARS 系列多模态大模型,通过截图视觉识别直接定位 GUI 元素,实现精准的鼠标点击、键盘输入和拖拽操作,无需应用 API 接入。支持 Windows、macOS、浏览器多平台。

2

🌐 混合浏览器 Agent

支持 GUI Agent 视觉定位、DOM 操作或两者混合的浏览器控制策略。既可以像人一样”看”网页并点击,也可以直接操作 DOM,灵活应对各类网页自动化场景。

3

🔄 事件流协议(Event Stream Protocol)

协议驱动的事件流支持上下文工程和 Agent UI 构建,让开发者可以实时监控 Agent 执行过程、干预决策流程,并基于事件流构建自定义 Agent 交互界面。

4

🧰 MCP 原生集成

内核基于 MCP(Model Context Protocol)构建,同时支持挂载 MCP 服务器对接各类真实世界工具。可无缝接入 Claude Code、Cursor 等 AI 编程助手,扩展 Agent 工具调用能力。

5

🤖 双形态:CLI + 桌面应用

同时提供 Agent TARS CLI(支持无头服务器模式)和 UI-TARS Desktop 原生桌面应用。CLI 适合开发者和服务端部署,桌面应用提供图形化界面,降低非技术用户使用门槛。

💡 典型使用场景

🏨

自动化订票/预订

通过自然语言指令”帮我在北京找一家500元以内的酒店,距离故宫近”,Agent 自动打开浏览器、搜索、筛选并下单,全程无需人工干预。

💻

跨应用工作流自动化

自动操作 Excel + 浏览器 + 邮件客户端,完成数据抓取、处理、发送的完整工作流。例如:每日自动从网站抓取数据、更新表格、发送报告邮件。

🧪

GUI 自动化测试

替代传统 Selenium/Playwright,通过视觉理解自动测试桌面应用和 Web 界面。无需维护选择器,界面对齐方式变化也不会影响测试稳定性。

🤝

AI 编程助手扩展

接入 Claude Code / Cursor,让 AI 编程助手不仅能写代码,还能自动操作浏览器验证功能、运行桌面应用测试,实现真正的端到端开发自动化。

✨ 推荐理由

纯视觉理解是 GUI 自动化的未来。传统 RPA 工具依赖应用 API 或 DOM 选择器,界面稍有变化就会失效。UI-TARS 通过多模态大模型”看”屏幕,真正模拟人的操作方式,从根本上解决了 GUI 自动化的脆弱性问题。

字节跳动技术实力保障。作为豆包手机的核心技术支撑,UI-TARS 已在生产环境中验证,不是实验室项目。37K+ Stars 和 3.7K+ Forks 也证明了社区的认可。

生态完善,开箱即用。MCP 原生集成让它可以无缝接入现有 AI 工具链;CLI + 桌面应用双形态覆盖开发者和普通用户;支持本地模型和云端 API 双模式部署,兼顾隐私和性能。

📊 项目动态

  • 2026-02:UI-TARS-desktop 开源,登顶 GitHub 热榜,Star 数突破 26K
  • 2026-06:Star 数突破 37K,社区持续活跃,Discord 成员快速增长
  • 作为豆包手机核心技术支撑,生产环境验证可靠性
  • 支持 UI-TARS/Seed-1.5-VL/1.6 系列最新模型

📅 数据更新至 2026年6月28日 | 信息来源:GitHub

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600