AI

Salesforce联手南加大推出CoAct-1,以代码+GUI创新方法引领AI代理自动化潮流

发布时间:2025年8月13日    来源:szf
Salesforce联手南加大推出CoAct-1,以代码+GUI创新方法引领AI代理自动化潮流

快速阅读: Salesforce与南加州大学联合开发CoAct-1系统,结合编码和GUI操作优势,提升AI代理执行复杂任务能力,成功率达60.76%,效率更高,适用于客户支持、销售勘探等多领域。

Salesforce与南加州大学的研究人员共同开发了一项名为 CoAct-1 的突破性技术,旨在通过结合编码和图形用户界面(GUI)操作的优势,显著提升AI代理在计算机上执行复杂任务的能力。这一混合方法旨在克服传统GUI代理的脆弱性,为更强大、可扩展的自动化铺平道路。

传统AI代理的痛点:长任务与误点击 现有的计算机AI代理通常依赖视觉语言模型(VLM)来感知屏幕并模拟鼠标键盘操作。虽然这类“点击式”代理能执行各种任务,但在面对办公生产力套件等具有密集菜单和复杂工作流程的应用时,它们往往表现不佳。研究人员指出,在这些场景中,单一的误点击或对UI元素的误解,都可能导致整个任务失败。

为了应对这一挑战,研究人员曾尝试利用 高级 规划器来增强GUI代理,但这种方法依然无法解决那些通过几行代码就能更直接、更可靠地完成的操作。

CoAct-1:一个多智能体协作的混合系统 为解决这些限制,CoAct-1系统应运而生。其核心理念是“将GUI操作的直观优势与通过代码直接进行系统交互的精确性、可靠性和效率相结合”。该系统由一个由三个专门代理组成的团队协作完成任务: 编排器(Orchestrator) :作为中央规划器,它负责将用户的总体目标分解为子任务,并分配给最合适的代理。

程序员(Programmer) :负责编写和执行Python或Bash脚本,处理文件管理或数据处理等后端操作。

GUI 操作员(GUI Operator) :基于VLM,专门处理需要点击按钮或导航界面的前端任务。

这种动态委托机制使得CoAct-1能够策略性地绕过低效的GUI操作,转而采用更稳健、更高效的代码执行,同时保留视觉交互的必要性。整个工作流程是迭代的,每个代理完成子任务后都会向编排器汇报,由其决定下一步行动。

性能飞跃:更快、更高效 研究人员在 OSWorld 基准测试上对CoAct-1进行了测试,该基准包含了369个跨浏览器、IDE和办公应用程序的实际任务。结果显示,CoAct-1取得了 60.76%的成功率 ,树立了新的 最高 水平。

尤其是在操作系统级任务和多应用程序工作流中,CoAct-1的性能提升最为显著。更重要的是,该系统的效率也大幅提高,平均只需 10.15步 即可完成任务,远少于其他领先的纯GUI代理所需的15.22步。研究人员指出,更少的步骤不仅能加快任务完成速度,还能 最大 限度地减少出错的机会,从而实现更高效、更可靠的自动化。

从实验室走向企业:潜在的应用与挑战 这项技术拥有巨大的企业应用潜力。Salesforce应用AI研究总监 Ran Xu 指出,客户支持、销售勘探、自动化簿记和营销活动管理等领域都是完美的用例。在这些场景中,企业需要处理有API和无API的多种工具,而CoAct-1能够灵活利用代码和屏幕,提供全面的自动化解决方案。

然而,将CoAct-1从实验室推向企业环境也面临挑战,包括应对遗留软件、确保安全性和人工监督的必要性。徐强调,需要通过在沙盒环境中训练来提高代理的适应性,并建立强大的访问控制和安全护栏,以防止恶意代码执行。最终,在可预见的未来, “人在环”(human-in-the-loop) 的模式将是确保代理安全、可靠运行的关键。

(以上内容均由Ai生成)

你可能还想读

印尼副部长呼吁谨慎使用AI进行公共沟通

印尼副部长呼吁谨慎使用AI进行公共沟通

快速阅读: 印度尼西亚通信和数字事务部副部长Nezar Patria呼吁公共关系专业人员谨慎、道德地使用AI,强调AI虽具潜力,但需人类监督与伦理责任,确保沟通质量与真实性。 雅加达(ANTARA)- 印度尼西亚通信和数字事务部副部长Nez […]

发布时间:2025年10月23日
名人及AI巨头呼吁停止追求超智能

名人及AI巨头呼吁停止追求超智能

快速阅读: 超过700名科学家、政治人物和名人呼吁暂停开发超人工智能,直至技术安全可控且获公众支持。未来生命研究所发布公开信,强调当前AI发展路径与公众期望、安全性及伦理标准脱节。 超过700名科学家、政治人物和名人,包括哈里王子、理查德· […]

发布时间:2025年10月23日
保守活动人士因谷歌AI生成虚假信息起诉谷歌

保守活动人士因谷歌AI生成虚假信息起诉谷歌

快速阅读: 保守活动人士罗比·斯塔巴克因谷歌AI系统生成关于他的虚假信息,将其诉至特拉华州法院,要求至少1500万美元赔偿。谷歌称此为Bard误判所致,已尽力处理。 保守活动人士罗比·斯塔巴克周三对谷歌提起诉讼,指控这家科技巨头的人工智能系 […]

发布时间:2025年10月23日
拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

快速阅读: 拉尔夫劳伦与微软合作推出AI对话购物工具“Ask Ralph”,提供个性化风格灵感,强调技术应提升品牌体验而非目的本身,展现AI个性化体验趋势。 9月,拉尔夫劳伦(与微软合作)发布了“Ask Ralph”,这是一款被描述为“由人 […]

发布时间:2025年10月23日
荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

快速阅读: 荣耀董事长吴晖宣布转型为AI终端生态公司,提出1 x 3 x N战略,涵盖HONOR AI Connect平台及多项赋能措施,推动AI场景化落地,涉及教育、家居、健康等多领域。 感谢IT之家网友 風見暉一 的线索投递! IT之家 […]

发布时间:2025年10月23日
微软Photos推AI绘图与智能重塑新功能

微软Photos推AI绘图与智能重塑新功能

快速阅读: 微软在其Photos应用中推出AI驱动的Restyle Image和Image Creator功能,前者可智能重塑照片风格,后者能根据描述生成高质量图像,均支持隐私保护,旨在提升图像创作体验。 微软近日在其 Photos(照片) […]

发布时间:2025年10月23日
2025新一代人工智能创业大赛启动 全球招募火热进行中

2025新一代人工智能创业大赛启动 全球招募火热进行中

快速阅读: 网易传媒启动2025新一代人工智能创业大赛,聚焦AI新技术与应用,设三大赛道,面向A轮前团队,奖金总额100万元,提供多维指导与资源支持。 2025年10月22日,网易传媒正式启动 “2025新一代人工智能创业大赛”,面向全球创 […]

发布时间:2025年10月23日
谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

快速阅读: 谷歌发布量子芯片Willow,成功运行“量子回声”算法,实现首个可验证的量子优势,比超级计算机快13,000倍,为新药研发和材料科学开辟新途径。 继量子计算研究团队荣获诺贝尔物理学奖之后,谷歌再次取得突破性进展。当地时间10月2 […]

发布时间:2025年10月23日