清华大学与面壁智能发布端侧GUI Agent:AgentCPM-GUI

近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。

近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。

AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**,能够精准识别和操作APP界面元素,满足多样化的用户需求。无论是导航、点餐还是内容浏览,AgentCPM-GUI都能高效完成任务,极大提升了用户体验。

值得一提的是,该模型通过**RFT(推理前思考)**技术增强了规划推理能力。在执行用户指令前,AgentCPM-GUI会先进行推理思考,生成更准确的动作序列,从而提升任务执行的成功率和可靠性。这一技术的应用使其在端侧AI领域表现尤为突出。

作为一款轻量级高性能模型,AgentCPM-GUI在手机等端侧设备上运行流畅,展现了清华大学THUNLP实验室与面壁智能在AI技术上的深厚实力。未来,这款GUI Agent有望进一步推动端侧AI的普及与应用,助力智能设备迈向更高效的交互时代。

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

​仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA

2025-5-14 15:00:15

AI新闻资讯

Perplexity AI将融资5亿美元,估值飙升至140亿美元挑战搜索巨头

2025-5-14 15:00:44

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索