OpenCUA开源计算代理挑战OpenAI等公司模型
快速阅读: 香港大学及合作机构开发OpenCUA框架,提供开源工具、数据和方法,助力创建强大AI代理,提升自动化工作流程效率,缩小与专有模型性能差距。
香港大学(HKU)及合作机构的研究人员开发了一个新的框架,提供开源基础,用于创建能够在计算机上操作的强大AI代理。该框架名为OpenCUA,包含开发计算机使用代理(CUA)所需的各种工具、数据和方法。使用此框架训练的模型在CUA基准测试中表现优异,超越现有的开源模型,并与来自OpenAI和Anthropic等领先AI实验室的封闭代理竞争激烈。
Visa投入35亿美元押注AI领域
计算机使用代理设计用于自主完成计算机上的任务,包括导航网站和操作复杂软件,也可帮助企业自动化工作流程。然而,最强大的CUA系统是专有的,其训练数据、架构和开发过程的关键细节保密。
“缺乏透明度限制了技术进步并引发了安全问题,研究社区需要真正开放的CUA框架来研究其能力、局限性和风险。”研究人员在论文中指出。
AI扩展遭遇瓶颈
由于功耗限制、令牌成本上升和推理延迟,企业AI正在重塑。加入我们的独家沙龙,了解顶级团队如何:
– 将能源转化为战略优势
– 构建高效的推理架构以实现实际吞吐量提升
– 通过可持续的AI系统解锁竞争优势回报
同时,开源努力也面临挑战。没有可扩展的基础设施来收集训练这些代理所需的多样化大规模数据。现有的开源图形用户界面(GUI)数据集数据有限,许多研究项目提供的方法细节不足,难以复制。
“这些限制共同阻碍了通用CUA的发展,限制了对其可扩展性、通用性和潜在学习方法的有意义探索。”论文中写道。
介绍OpenCUA
OpenCUA框架源自香港大学XLANG实验室,旨在通过扩大数据收集和模型规模来应对这些挑战。其核心是AgentNet工具,用于记录不同操作系统上的人类计算机任务演示。
该工具通过在标注者的个人电脑后台运行,捕捉屏幕录像、鼠标和键盘输入以及底层可访问性树,后者提供了关于屏幕上元素的结构化信息。原始数据随后被处理成“状态-动作轨迹”,将计算机截图(状态)与用户的相应动作(点击、按键等)配对。标注者可以审查、编辑并提交这些演示。
研究人员利用该工具收集了AgentNet数据集,包含超过22,600个任务演示,涵盖Windows、macOS和Ubuntu三个操作系统,涉及200多个应用程序和网站。“该数据集真实地反映了用户个人计算环境中人类行为和环境动态的复杂性。”论文指出。
考虑到屏幕录制工具对企业可能引起的数据隐私问题,研究人员设计了AgentNet工具,注重安全性。香港大学博士生王新元表示,他们实施了多层次隐私保护框架。“首先,标注者可以在决定是否提交之前完全查看自己生成的数据。”他告诉VentureBeat。数据随后经过人工验证隐私问题,并由大型模型自动扫描剩余的敏感内容,确保处理敏感客户或财务数据环境的企业级稳健性。
为了加速评估,团队还整理了AgentNetBench离线基准,为每一步提供多种正确动作,以更高效地衡量代理性能。
新的代理训练方法
OpenCUA框架引入了一种处理数据和训练计算机使用代理的新管道。第一步是将原始人类演示转换为适合训练视觉-语言模型(VLM)的干净状态-动作对。然而,研究人员发现,仅在这些对上训练模型,即使有大量数据,性能提升也有限。
OpenCUA思维链管道展示了这一过程。
研究人员发现,通过增强这些轨迹的链式思维(CoT)推理,可以为每个动作生成详细的“内心独白”,包括规划、记忆和反思。这种结构化的推理分为三个层次:屏幕的高级观察、分析情况并计划下一步的反思性思考,以及最终的简明可执行动作。这种方法有助于代理更深入地理解任务。
研究团队指出:“我们发现自然语言推理对于通用计算机使用基础模型至关重要,有助于CUA内化认知能力。”
这一数据合成管道是一个通用框架,企业可以据此训练代理,以适应其独特的内部工具。王表示,企业可以记录其专有工作流程的演示,并使用相同的“反射器”和“生成器”管道创建必要的训练数据。“这使他们能够在无需手动制作推理轨迹的情况下,快速建立一个高性能的代理,专门针对其内部工具。”他解释道。
为了测试OpenCUA,研究人员将该框架应用于多种开源视觉语言模型(VLM),包括参数规模从30亿到320亿的不同版本的Qwen和Kimi-VL。这些模型在一系列在线和离线基准测试中进行了评估,测试它们执行任务和理解图形用户界面的能力。
其中,320亿参数的OpenCUA-32B模型在开源模型中取得了最佳的成功率,在OSWorld-Verified基准测试中超越了OpenAI的GPT-4o基CUA,并显著缩小了与Anthropic领先专有模型的性能差距。
对于企业开发者和产品领导者来说,这项研究提供了几个关键发现。OpenCUA方法具有广泛适用性,能够提升不同架构(包括密集型和混合专家型)和不同规模模型的性能。经过训练的代理还表现出强大的泛化能力,在各种任务和操作系统中表现良好。
王认为,该框架特别适合自动化企业中的重复性和劳动密集型工作流程。“例如,在AgentNet数据集中,我们已经记录了在亚马逊AWS上启动EC2实例和在MTurk上配置注释参数的几个演示。”他告诉VentureBeat,“这些任务涉及许多顺序步骤,但遵循可重复的模式。”
然而,王指出,实现实际部署需要解决安全性和可靠性方面的关键挑战。“实际部署中最大的挑战是安全性和可靠性:代理必须避免可能导致系统设置意外更改或产生有害副作用的错误。”他说。
研究人员发布了代码、数据集和模型权重。
随着基于OpenCUA等框架构建的开源代理能力的提升,它们可能会从根本上改变知识工作者与其计算机之间的关系。王设想了一个未来,在这个未来中,掌握复杂软件的能力不如向AI代理清晰表达目标重要。
他描述了两种主要的工作模式:“离线自动化,代理利用其广泛的软件知识完成任务;在线协作,代理实时响应并与人类并肩工作,就像同事一样。”基本上,人类提供战略性的“做什么”,而越来越复杂的AI代理则处理操作性的“怎么做”。
(以上内容均由Ai生成)