微软研究:API 代理速度更快,但 GUI 代理更灵活

近日,微软的研究团队对 API 代理和 GUI 代理进行了对比研究,发现这两种代理各有特点,可以根据不同需求进行合理选择。API 代理通过可编程接口与软件进行交互,而 GUI 代理则模拟人类的操作方式,通过点击按钮和导航菜单来完成任务。例如,若要安排一个活动,API 代理可能只需一次函数调用,而 GUI 代理则需要打开日历应用,逐步填写相关信息。

近日,微软的研究团队对 API 代理和 GUI 代理进行了对比研究,发现这两种代理各有特点,可以根据不同需求进行合理选择。API 代理通过可编程接口与软件进行交互,而 GUI 代理则模拟人类的操作方式,通过点击按钮和导航菜单来完成任务。例如,若要安排一个活动,API 代理可能只需一次函数调用,而 GUI 代理则需要打开日历应用,逐步填写相关信息。

微软研究:API 代理速度更快,但 GUI 代理更灵活

在研究中,微软团队评估了这两种代理在九个类别上的表现。其中一个主要差异在于它们与软件的交互方式:API 代理利用函数调用,通常表现得更稳定且出错概率低;而 GUI 代理则依赖于视觉界面内容,虽然效率较低,却具备更高的灵活性。GUI 代理能够控制几乎所有具有可见界面的软件,即使这些软件并不提供 API。

研究还指出,API 代理在安全性和维护上具有优势,因为可以在功能级别限制访问权限,并且受益于版本控制。相比之下,GUI 代理则更加脆弱,稍微的视觉变化就可能导致其无法正常工作。然而,GUI 代理的透明度更高,用户可以清晰地看到每个操作,方便审计。

微软提出了三种结合 API 代理与 GUI 代理的混合系统策略。第一种是通过 API 封装隐藏 GUI 操作,例如将生成财务报告的多步骤过程简化为一个单一的 GenerateReport () 函数。第二种策略是使用编排工具来协调 API 和 GUI 的步骤,适用于数据库查询和信用检查等工作流。第三种策略是低代码和无代码平台,允许非技术用户通过拖放界面构建自动化流程。

在选择合适的代理时,研究团队提供了明确的指导。API 代理适合性能要求高的任务,特别是在与良好文档的接口打交道时,而 GUI 代理则适用于缺乏 API 的旧系统以及移动应用等场景。随着时间的推移,混合系统能够适应新出现的 API,提供更大的灵活性。

划重点:

🌟 API 代理通过函数调用实现快速、稳定的任务完成,适合安全要求高的环境。  

🔄 GUI 代理灵活性强,能够应对视觉界面的变化,适合老旧系统和需要视觉确认的任务。  

🤝 混合系统结合了两者的优点,能根据具体需求选择最优方案,助力自动化进程。

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

用户提问方式影响AI模型准确性,简洁回答易导致错误信息

2025-5-12 9:30:26

AI新闻资讯

真有人会爱上ChatGPT?我尝试和AI“交往”一周后发现有些不对劲

2025-5-12 9:45:02

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索