您需要了解的有关 Amazon Nova Act 的信息:挑战 OpenAI、Microsoft 和 Salesforce 的新 AI 代理 SDK
快速阅读: 《VentureBeat 公司》消息,亚马逊推出Nova Act开发者工具包,允许开发者构建能在网络中导航并完成任务的人工智能代理。该工具基于亚马逊定制的Nova大语言模型,强调可靠性与安全性,支持多种特性如细粒度任务分解和Python集成。尽管开源,但仅限于与亚马逊内部的Nova模型配合使用。目前以免费形式提供,未来可能引入基于使用量的计费。
订阅我们的每日和每周简报,获取有关行业领先的人工智能覆盖的最新更新和独家内容。沉寂已久的巨人已苏醒!一段时间以来,亚马逊似乎在追赶步伐,致力于为其用户——尤其是数百万基于AWS云基础设施构建应用的开发者们——提供引人注目的自有第一方AI模型和工具。但到了2024年末,亚马逊推出了自家内部的基础模型系列——**亚马逊Nova**,具备文本、图像乃至视频生成能力。上个月还发布了新的Alexa语音助手,部分基于Anthropic公司的Claude模型家族。然后,在周一,这家电子商务和云计算巨头的人工通用智能部门亚马逊AGI宣布了一款实验性质的开发者工具包——**亚马逊Nova Act**的发布,用于构建能够自主在网络中导航并完成任务的人工智能代理,由亚马逊定制的专有版Nova大语言模型(LLM)提供支持。哦,而且标准的开发者套件(SDK)是根据宽松的Apache 2.0许可发布的开源软件,尽管该SDK仅设计为与亚马逊内部定制的Nova模型一起使用,而不是任何第三方模型。目标是帮助第三方开发者构建能在网络浏览器中可靠执行任务的人工智能代理。
不过,**亚马逊Nova Act**与其他市面上的代理构建平台相比如何?比如微软的**AutoGen**、Salesforce的**Agentforce**,当然还有OpenAI最近发布的开源**Agents SDK**?自从大型语言模型(LLMs)普及以来,大多数‘代理’系统仅限于用自然语言回应或通过查询知识库提供信息。Nova Act是更大范围转向行动型代理的一部分,这些系统能够在数字环境中为用户实际完成任务。OpenAI推出的Responses API,能让用户访问其自主浏览器导航功能,就是一个典型的例子,开发人员可以通过OpenAI Agents SDK将其集成到人工智能代理中。
亚马逊AGI强调,当前的代理系统虽然很有前景,但在可靠性方面存在困难,并且通常需要人工监督,特别是在处理多步骤或复杂工作流时。Nova Act专门设计来解决这些局限性,通过提供一组原子级的明确指令,这些指令可以组合成可靠的流程。亚马逊的技术人员Deniz Birlikci在介绍Nova Act的视频中描述了更大的愿景:很快,浏览网络的AI代理将比人类更多,代为用户完成任务。亚马逊自治团队副总裁兼AGI旧金山实验室负责人David Luan在最近的一次与VentureBeat的视频通话采访中更直接地阐述了这一使命:“我们创造了一个新的实验性AI模型,它被训练为在网页浏览器中执行操作。从根本上讲,我们认为代理是计算的基本单元。”
他说。Luan曾是Adept AI的联合创始人兼首席执行官,于2024年作为收购的一部分加入了亚马逊。Luan表示他一直提倡AI代理。“在Adept,我们是第一家真正开始研究AI代理的公司。现在,每个人都知道代理的重要性。能稍微领先于时代是很酷的,”他补充道。
### Nova Act为开发者提供了什么
Nova Act SDK为开发者提供了一个框架,用于使用自然语言提示构建基于网络的自动化代理,这些提示被分解为清晰、可管理的步骤。与典型的LLM驱动的代理不同,后者试图从单一提示中完成整个工作流——通常导致不可靠的行为——Nova Act被设计为逐步执行较小的、可验证的任务。
Nova Act的一些关键特性包括:
– **细粒度的任务分解**:开发人员可以将复杂的数字工作流分解为更小的act()调用,每个调用引导代理执行特定的UI交互。
– **通过Playwright进行直接浏览器操作**:Nova Act集成了Playwright,这是由微软开发的一个开源浏览器自动化框架。Playwright允许开发人员通过编程控制网络浏览器——点击元素、填写表单或导航页面——而不完全依赖AI预测。这种集成对于处理敏感任务特别有用,如输入密码或信用卡详细信息。例如,开发人员可以指示Nova Act专注于密码字段,然后使用Playwright API安全地输入密码,而模型永远不会“看到”它。这种方法有助于增强自动化网络交互的安全性和隐私性。
– **Python集成**:SDK允许开发人员在Nova Act命令中插入Python代码,包括标准的Python工具,如断点、断言或线程池用于并行执行。
– **结构化信息提取**:SDK通过Pydantic模式支持结构化数据提取,允许代理将屏幕内容转换为结构化格式。
– **并行化和调度**:开发人员可以并发运行多个Nova Act实例,并安排自动化工作流,而无需持续的人类监督。
Luan强调,Nova Act是一个面向开发者的工具,而不是一个通用聊天机器人。“Nova Act是为开发者打造的。这不是一个你可以用来娱乐的聊天机器人。旨在帮助开发者开始构建实用的产品,”他说。例如,亚马逊文档中展示的一个示例工作流展示了Nova Act如何通过抓取租赁列表并计算骑车到车站的距离,然后以结构化表格的形式整理结果,从而实现公寓搜索的自动化。另一个展示的例子使用Nova Act每周二完全无接触地订购Sweetgreen的特定沙拉,展示了开发者如何以可靠且可定制的方式自动化重复的数字任务。
### 基准性能和对可靠性的关注
亚马逊公告的核心信息是,可靠性不仅仅是智能,是广泛采用代理的关键障碍。据亚马逊称,当前最先进的模型在为AI代理提供动力时实际上非常脆弱,在基于浏览器的多步骤任务中,代理的成功率通常仅为30%至60%。
**Nova Act** 然而,采用了模块化方法,在处理挑战其他模型的任务时,其内部评估得分超过90%,例如处理下拉菜单、日期选择器或弹出窗口等任务。Luan 强调了这种对可靠性的关注为何重要。“我们真正关注的是如何让代理变得可靠?如果你要求它在Salesforce中更新一条记录,但它每十次中有一次会删除你的数据库,你可能再也不会使用它了,”他说。
亚马逊AGI将Nova Act与包括Anthropic的Claude 3.7 Sonnet和OpenAI的CUA模型在内的竞争模型进行了对比测试。ScreenSpot Web Text基准测试评估文本屏幕元素的指令遵循情况,Nova Act获得了0.939分,优于Claude 3.7 Sonnet(0.900)和OpenAI CUA(0.883)。图片来源:亚马逊。
在专注于视觉UI元素的ScreenSpot Web Icon基准测试中,Nova Act获得了0.879分,再次领先于其他模型。然而,在测试通用用户界面交互的GroundUI Web基准测试中,Nova Act获得了0.805分,略微落后于竞争对手。
这些分数由亚马逊基于一致的提示和评估标准内部得出。亚马逊还强调了Nova Act在超越标准环境方面早期泛化的成果。例如,团队成员Rick Liu展示了代理如何在没有明确训练的情况下成功与一款以鸽子为主题的网页游戏互动——分配属性、对抗对手并推进游戏进程。根据Luan的说法,这种泛化能力是长期愿景的核心。“我们对Nova Act的目标是成为一种通用的浏览器使用解决方案。我们希望有一个代理,可以为你在电脑上做任何你想做的事情,”他说。
### 灵活适用于不同的云环境,但仅限于亚马逊的Nova模型
尽管Nova Act通过nova.amazon.com向全球开发者开放,但Luan澄清说该系统紧密耦合于亚马逊内部的Nova基础模型。开发人员无法插入外部大型语言模型(LLM),如OpenAI的GPT-4o或Anthropic的Claude 3.7 Sonnet,不像OpenAI的Agent SDK那样开放,也不像Microsoft的AutoGen和Salesforce的Agentforce平台那样在某种程度上支持切换到几个不同的提供商公司和模型家族。
“Nova Act是Nova模型的一个定制化训练版本,”他说。“它不仅仅是一个通用大型语言模型上的框架。它是经过专门训练以代表你在互联网上行动。”
然而,Nova Act并不局限于AWS环境中。开发人员可以下载SDK并在本地、云端或他们选择的任何地方运行它。无需依赖AWS即可使用它,Luan指出。因此,对于寻求代理最大底层模型灵活性的企业来说,Nova Act可能不是最佳选择。然而,对于那些寻找专门为浏览网页并在各种具有不同用户界面(UI)的网站上执行操作而设计的模型的人来说,它可能值得一试——特别是如果你已经在亚马逊或AWS开发者生态系统中。
### 安全性、许可和定价
Nova Act SDK遵循Apache许可证2.0版(2004年1月)。但仅适用于SDK软件。Nova Act模型本身及其权重和训练数据是专有的,仍保持闭源状态。据Luan所述,这是有意安排,他解释说该模型与SDK紧密集成并共同训练以实现可靠性。
在发布初期,Nova Act以免费研究预览的形式推出。目前尚未公布生产使用的定价。Luan将此阶段视为开发人员探索和构建技术的机会。“我们的信念是,大多数最有用的代理产品尚未被创建。我们希望任何人都能开发出非常实用的代理,无论是为自己还是作为产品,”他说。
从长远来看,亚马逊计划引入生产级条款,包括基于使用量的计费和扩展保证,但目前这些还未可用。
### Nova Act的下一步是什么?
Nova Act的发布反映了亚马逊更广泛的雄心,即将以行动为导向的AI代理打造成计算的基础组成部分。Luan总结了未来的机遇:“我个人的梦想是,代理成为计算的基本构建块,最酷的新创企业和产品能够建立在我们团队正在开发的基础上。”
Nova Act SDK现在可以在亚马逊的网站和GitHub上进行实验和原型设计。
### 每日商业用例洞察与VB每日
如果你想给老板留下深刻印象,VB每日可以帮你做到。我们为你提供公司如何使用生成式AI的内幕消息,从监管变化到实际部署,这样你就可以分享见解以获得最大的投资回报率。立即订阅阅读我们的隐私政策感谢您订阅。查看更多VB新闻通讯。发生错误。
(以上内容均由Ai生成)