### [UI-TARS Desktop:35.3k Stars!字节跳动开源多模态AI代理桌面端,让AI直接操作你的电脑](https://www.willai.cc/article/732) **Published:** 2026-05-26T18:19:09 **Author:** hiyoho **Excerpt:** 📦 项目简介 UI-TARS Desktop 是字节跳动开源的多模态 AI Agent 桌面应用,基于自研的 UI-TARS 多模态大模型和先进的 GUI Agent 架构,让你可以用自然语言直接控制电脑——打开软件、修改设置、操作浏览器, * * * ## 📦 项目简介 UI-TARS Desktop 是字节跳动开源的**多模态 AI Agent 桌面应用**,基于自研的 UI-TARS 多模态大模型和先进的 GUI Agent 架构,让你可以用自然语言直接控制电脑——打开软件、修改设置、操作浏览器,全部由 AI 代劳。 项目已获得 **35.3k+ Stars**,Apache 2.0 开源协议,支持 Windows / macOS / Linux 三平台,是 2026 年最值得关注的多模态 AI Agent 项目之一。 ![UI-TARS Desktop 演示](https://raw.githubusercontent.com/byteDance/UI-TARS-Desktop/main/assets/demo.gif) UI-TARS Desktop 实际操作演示 ## ⚙️ 安装要求和过程 **环境要求:** - Windows 10+ / macOS 12+ / Linux(Ubuntu 20.04+) - 8GB+ RAM(推荐 16GB) - 支持 CPU 推理,推荐 NVIDIA GPU(4GB+ 显存)以获得最佳体验 - Node.js 22+(如使用 Agent TARS CLI) ### 方式一:下载桌面端(推荐) 1. 访问 [GitHub Releases 页面](https://github.com/byteDance/UI-TARS-Desktop/releases),下载对应系统的安装包 2. Windows 用户:下载 `.exe` 安装包,双击安装 3. macOS 用户:下载 `.dmg` 文件,拖入 Applications 文件夹 4. 首次启动需下载 UI-TARS 模型(约 4GB),请保持网络畅通 ### 方式二:使用 Agent TARS CLI ``` # 快速启动(无需全局安装) npx @agent-tars/cli@latest # 全局安装 npm install @agent-tars/cli@latest -g # 使用火山引擎方舟模型启动 agent-tars --provider volcengine --model doubao-1.5-thinking-vision-pro-250428 --apiKey YOUR_KEY # 使用 Anthropic Claude 模型启动 agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey YOUR_KEY ``` ## 🚀 核心功能 🤖 自然语言控制 基于视觉语言模型(VLM),用日常语言描述任务,AI 自动理解并执行 🖥️ 全系统 GUI 操作 精准控制鼠标、键盘,操作任意桌面应用,不受 API 限制 🌐 混合浏览器 Agent 支持 GUI Agent 视觉定位、DOM 操作或混合策略控制浏览器 🔌 MCP 工具集成 内核基于 MCP 构建,支持挂载各类 MCP 服务器,连接真实世界工具 🔒 隐私安全 完全本地处理,数据不上传云端,支持企业内网部署 🔄 远程操作 v0.2.0 起免费提供远程电脑操作和远程浏览器操作,无需额外配置 ## 🎯 典型使用场景 ### 场景一:让 AI 帮你配置开发环境 告诉 UI-TARS **“帮我在 VS Code 里打开自动保存,并把延迟设为 500 毫秒”**,它会自动打开 VS Code 设置页面,找到对应选项并完成修改——全程无需你动手。 ### 场景二:自动完成网页预订任务 对 Agent TARS CLI 说 **“帮我在 Priceline 上订 9 月 1 日圣何塞到纽约最早的航班,以及 9 月 6 日最晚的返程航班”**,它会自动打开浏览器、填写表单、筛选结果并完成预订。 ### 场景三:查询并分析 GitHub 项目 直接问 **“你能帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的开放 issue 吗?”**,AI 会自动访问项目页面、抓取 issue 列表并整理成可读的格式反馈给你。 ## 💡 推荐理由 UI-TARS Desktop 最打动我的是它的**「真正理解界面」**的能力。不同于传统 RPA 工具依赖元素定位,UI-TARS 通过视觉语言模型直接”看”屏幕,就像人一样理解界面布局和元素含义。 作为字节跳动出品的开源项目,它的技术栈相当扎实:基于自研的 UI-TARS-1.5-7B 多模态模型,支持 Docker 沙箱隔离执行,MCP 工具集成也非常完善。**最关键的是——它完全本地运行,你的数据不会被上传到任何云端服务器。** 如果你一直在寻找一个能真正帮你操作电脑的 AI Agent,而不是只会聊天的对话工具,UI-TARS Desktop 绝对值得一试。它的远程操作功能(v0.2.0 起免费)更是让”AI 助手”的概念从聊天进化到了”真正帮你做事”。 🚀 立即体验 UI-TARS Desktop 开源 · 本地运行 · 多模态 AI Agent · 字节跳动出品 支持 Windows / macOS / Linux · Apache 2.0 协议 ## 📥 下载地址 - **官方网站**:[https://agent-tars.com](https://agent-tars.com) - **GitHub 仓库**:[https://github.com/byteDance/UI-TARS-Desktop](https://github.com/byteDance/UI-TARS-Desktop)(35.3k+ ⭐) - **Agent TARS CLI**:`npx @agent-tars/cli@latest` - **模型下载**:[HuggingFace](https://huggingface.co/byteDance-Seed/UI-TARS-1.5-7B) | [ModelScope](https://modelscope.cn/models/ByteDance/UI-TARS-1.5-7B) - **论文地址**:[arXiv:2501.12326](https://arxiv.org/abs/2501.12326) - **社区交流**:[Discord](https://discord.gg/UI-TARS) | [官方文档](https://agent-tars.com/guide/get-started/quick-start.html) * * * 📌 本文由 WorkBuddy AI 自动采集撰写,原文发布于 hiyoho.com **Tags:** AI, AI Agent, browser-use, ByteDance, GitHub, GUI代理, MCP, UI-TARS, 人工智能, 多模态AI **Categories:** 开源项目 ---