AI

OpenCUA开源计算代理挑战OpenAI等公司模型

发布时间:2025年8月23日    来源:szf
OpenCUA开源计算代理挑战OpenAI等公司模型

快速阅读: 香港大学及合作机构开发OpenCUA框架,提供开源工具、数据和方法,助力创建强大AI代理,提升自动化工作流程效率,缩小与专有模型性能差距。

香港大学(HKU)及合作机构的研究人员开发了一个新的框架,提供开源基础,用于创建能够在计算机上操作的强大AI代理。该框架名为OpenCUA,包含开发计算机使用代理(CUA)所需的各种工具、数据和方法。使用此框架训练的模型在CUA基准测试中表现优异,超越现有的开源模型,并与来自OpenAI和Anthropic等领先AI实验室的封闭代理竞争激烈。

Visa投入35亿美元押注AI领域

计算机使用代理设计用于自主完成计算机上的任务,包括导航网站和操作复杂软件,也可帮助企业自动化工作流程。然而,最强大的CUA系统是专有的,其训练数据、架构和开发过程的关键细节保密。

“缺乏透明度限制了技术进步并引发了安全问题,研究社区需要真正开放的CUA框架来研究其能力、局限性和风险。”研究人员在论文中指出。

AI扩展遭遇瓶颈

由于功耗限制、令牌成本上升和推理延迟,企业AI正在重塑。加入我们的独家沙龙,了解顶级团队如何:

– 将能源转化为战略优势

– 构建高效的推理架构以实现实际吞吐量提升

– 通过可持续的AI系统解锁竞争优势回报

同时,开源努力也面临挑战。没有可扩展的基础设施来收集训练这些代理所需的多样化大规模数据。现有的开源图形用户界面(GUI)数据集数据有限,许多研究项目提供的方法细节不足,难以复制。

“这些限制共同阻碍了通用CUA的发展,限制了对其可扩展性、通用性和潜在学习方法的有意义探索。”论文中写道。

介绍OpenCUA

OpenCUA框架源自香港大学XLANG实验室,旨在通过扩大数据收集和模型规模来应对这些挑战。其核心是AgentNet工具,用于记录不同操作系统上的人类计算机任务演示。

该工具通过在标注者的个人电脑后台运行,捕捉屏幕录像、鼠标和键盘输入以及底层可访问性树,后者提供了关于屏幕上元素的结构化信息。原始数据随后被处理成“状态-动作轨迹”,将计算机截图(状态)与用户的相应动作(点击、按键等)配对。标注者可以审查、编辑并提交这些演示。

研究人员利用该工具收集了AgentNet数据集,包含超过22,600个任务演示,涵盖Windows、macOS和Ubuntu三个操作系统,涉及200多个应用程序和网站。“该数据集真实地反映了用户个人计算环境中人类行为和环境动态的复杂性。”论文指出。

考虑到屏幕录制工具对企业可能引起的数据隐私问题,研究人员设计了AgentNet工具,注重安全性。香港大学博士生王新元表示,他们实施了多层次隐私保护框架。“首先,标注者可以在决定是否提交之前完全查看自己生成的数据。”他告诉VentureBeat。数据随后经过人工验证隐私问题,并由大型模型自动扫描剩余的敏感内容,确保处理敏感客户或财务数据环境的企业级稳健性。

为了加速评估,团队还整理了AgentNetBench离线基准,为每一步提供多种正确动作,以更高效地衡量代理性能。

新的代理训练方法

OpenCUA框架引入了一种处理数据和训练计算机使用代理的新管道。第一步是将原始人类演示转换为适合训练视觉-语言模型(VLM)的干净状态-动作对。然而,研究人员发现,仅在这些对上训练模型,即使有大量数据,性能提升也有限。

OpenCUA思维链管道展示了这一过程。

研究人员发现,通过增强这些轨迹的链式思维(CoT)推理,可以为每个动作生成详细的“内心独白”,包括规划、记忆和反思。这种结构化的推理分为三个层次:屏幕的高级观察、分析情况并计划下一步的反思性思考,以及最终的简明可执行动作。这种方法有助于代理更深入地理解任务。

研究团队指出:“我们发现自然语言推理对于通用计算机使用基础模型至关重要,有助于CUA内化认知能力。”

这一数据合成管道是一个通用框架,企业可以据此训练代理,以适应其独特的内部工具。王表示,企业可以记录其专有工作流程的演示,并使用相同的“反射器”和“生成器”管道创建必要的训练数据。“这使他们能够在无需手动制作推理轨迹的情况下,快速建立一个高性能的代理,专门针对其内部工具。”他解释道。

为了测试OpenCUA,研究人员将该框架应用于多种开源视觉语言模型(VLM),包括参数规模从30亿到320亿的不同版本的Qwen和Kimi-VL。这些模型在一系列在线和离线基准测试中进行了评估,测试它们执行任务和理解图形用户界面的能力。

其中,320亿参数的OpenCUA-32B模型在开源模型中取得了最佳的成功率,在OSWorld-Verified基准测试中超越了OpenAI的GPT-4o基CUA,并显著缩小了与Anthropic领先专有模型的性能差距。

对于企业开发者和产品领导者来说,这项研究提供了几个关键发现。OpenCUA方法具有广泛适用性,能够提升不同架构(包括密集型和混合专家型)和不同规模模型的性能。经过训练的代理还表现出强大的泛化能力,在各种任务和操作系统中表现良好。

王认为,该框架特别适合自动化企业中的重复性和劳动密集型工作流程。“例如,在AgentNet数据集中,我们已经记录了在亚马逊AWS上启动EC2实例和在MTurk上配置注释参数的几个演示。”他告诉VentureBeat,“这些任务涉及许多顺序步骤,但遵循可重复的模式。”

然而,王指出,实现实际部署需要解决安全性和可靠性方面的关键挑战。“实际部署中最大的挑战是安全性和可靠性:代理必须避免可能导致系统设置意外更改或产生有害副作用的错误。”他说。

研究人员发布了代码、数据集和模型权重。

随着基于OpenCUA等框架构建的开源代理能力的提升,它们可能会从根本上改变知识工作者与其计算机之间的关系。王设想了一个未来,在这个未来中,掌握复杂软件的能力不如向AI代理清晰表达目标重要。

他描述了两种主要的工作模式:“离线自动化,代理利用其广泛的软件知识完成任务;在线协作,代理实时响应并与人类并肩工作,就像同事一样。”基本上,人类提供战略性的“做什么”,而越来越复杂的AI代理则处理操作性的“怎么做”。

(以上内容均由Ai生成)

你可能还想读

印尼副部长呼吁谨慎使用AI进行公共沟通

印尼副部长呼吁谨慎使用AI进行公共沟通

快速阅读: 印度尼西亚通信和数字事务部副部长Nezar Patria呼吁公共关系专业人员谨慎、道德地使用AI,强调AI虽具潜力,但需人类监督与伦理责任,确保沟通质量与真实性。 雅加达(ANTARA)- 印度尼西亚通信和数字事务部副部长Nez […]

发布时间:2025年10月23日
名人及AI巨头呼吁停止追求超智能

名人及AI巨头呼吁停止追求超智能

快速阅读: 超过700名科学家、政治人物和名人呼吁暂停开发超人工智能,直至技术安全可控且获公众支持。未来生命研究所发布公开信,强调当前AI发展路径与公众期望、安全性及伦理标准脱节。 超过700名科学家、政治人物和名人,包括哈里王子、理查德· […]

发布时间:2025年10月23日
保守活动人士因谷歌AI生成虚假信息起诉谷歌

保守活动人士因谷歌AI生成虚假信息起诉谷歌

快速阅读: 保守活动人士罗比·斯塔巴克因谷歌AI系统生成关于他的虚假信息,将其诉至特拉华州法院,要求至少1500万美元赔偿。谷歌称此为Bard误判所致,已尽力处理。 保守活动人士罗比·斯塔巴克周三对谷歌提起诉讼,指控这家科技巨头的人工智能系 […]

发布时间:2025年10月23日
拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

快速阅读: 拉尔夫劳伦与微软合作推出AI对话购物工具“Ask Ralph”,提供个性化风格灵感,强调技术应提升品牌体验而非目的本身,展现AI个性化体验趋势。 9月,拉尔夫劳伦(与微软合作)发布了“Ask Ralph”,这是一款被描述为“由人 […]

发布时间:2025年10月23日
荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

快速阅读: 荣耀董事长吴晖宣布转型为AI终端生态公司,提出1 x 3 x N战略,涵盖HONOR AI Connect平台及多项赋能措施,推动AI场景化落地,涉及教育、家居、健康等多领域。 感谢IT之家网友 風見暉一 的线索投递! IT之家 […]

发布时间:2025年10月23日
微软Photos推AI绘图与智能重塑新功能

微软Photos推AI绘图与智能重塑新功能

快速阅读: 微软在其Photos应用中推出AI驱动的Restyle Image和Image Creator功能,前者可智能重塑照片风格,后者能根据描述生成高质量图像,均支持隐私保护,旨在提升图像创作体验。 微软近日在其 Photos(照片) […]

发布时间:2025年10月23日
2025新一代人工智能创业大赛启动 全球招募火热进行中

2025新一代人工智能创业大赛启动 全球招募火热进行中

快速阅读: 网易传媒启动2025新一代人工智能创业大赛,聚焦AI新技术与应用,设三大赛道,面向A轮前团队,奖金总额100万元,提供多维指导与资源支持。 2025年10月22日,网易传媒正式启动 “2025新一代人工智能创业大赛”,面向全球创 […]

发布时间:2025年10月23日
谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

快速阅读: 谷歌发布量子芯片Willow,成功运行“量子回声”算法,实现首个可验证的量子优势,比超级计算机快13,000倍,为新药研发和材料科学开辟新途径。 继量子计算研究团队荣获诺贝尔物理学奖之后,谷歌再次取得突破性进展。当地时间10月2 […]

发布时间:2025年10月23日