Genspark 的 Super Agent 在通用 AI 代理竞赛中提高了赌注
快速阅读: 据《VentureBeat 公司》称,光火发布的超级代理能自主处理复杂现实任务,展示多模态自动化潜力。与文墨相比,光火在工具编排和专有组件上更具优势,但大型科技公司因风险规避仍持谨慎态度。通用代理正逐渐进入企业应用领域,可能改变现有软件生态。
加入我们的每日和每周简报,获取行业领先的人工智能报道的最新动态和独家内容。了解更多通用人工智能代理领域的竞争突然变得更加激烈和雄心勃勃。
本周,总部位于帕洛阿尔托的初创公司光火发布了他们所谓的超级代理,这是一个快速移动的自主系统,旨在处理跨越广泛领域的现实世界任务——包括一些令人惊讶的任务,比如使用逼真的合成语音给餐馆打电话。这次发布为人工智能竞争中即将成为重要新领域增添了动力:谁将首先构建出可靠、灵活且真正有用的通用代理?或许更紧迫的是,这对企业意味着什么?
光火的超级代理发布距离另一家由中国创办的初创公司文墨引起关注仅过去了三周,文墨能够协调工具和数据源以完成异步云任务,如旅行预订、简历筛选和股票分析——所有这些都不需要像大多数当前代理那样的手把手指导。光火现在声称走得更远。联合创始人景逸表示,超级代理基于三个支柱:九种不同的大型语言模型的协同工作、超过80种工具以及超过10个专有数据集——所有这些都在一个协调的流程中共同运作。它远远超越了传统的聊天机器人,处理复杂的流程并返回完全执行的结果。
在演示中,光火的代理规划了一次完整的五天圣地亚哥之旅,计算了景点之间的步行距离,绘制了公共交通选项,并使用语音呼叫代理预订餐厅,包括处理食物过敏和座位偏好。另一个演示展示了代理通过生成食谱步骤、视频场景和音频叠加来创建烹饪视频片段。在第三个演示中,它编写并制作了一部类似南方公园风格的动画剧集,围绕最近涉及与政治记者分享战争计划的信号门政治丑闻展开。这些可能听起来是面向消费者的,但它们展示了技术的发展方向——朝着多模态、多步骤的任务自动化发展,模糊了创意生成与执行之间的界限。
“解决这些现实世界的问题比我们想象的要困难得多,”景逸在视频中说,“但我们对取得的进展感到兴奋。”
一个引人注目的功能:超级代理清楚地可视化其思维过程,追踪它是如何通过每一步推理的,调用了哪些工具以及为什么这样做。实时观看这个逻辑过程使系统感觉不像黑箱,而更像是一个协作伙伴。它也可能激励企业开发者在其自己的人工智能系统中构建类似的可追溯的推理路径,使应用程序更加透明和可信。
超级代理也给人留下了深刻的印象。界面在浏览器中顺利启动,无需任何技术设置。光火允许用户在不提供个人凭据的情况下开始测试。相比之下,文墨仍然要求申请人加入等待名单并披露社交账户和其他私人信息,增加了实验的阻力。
我们早在去年十一月就写过关于光火的文章,当时它推出了基于克劳德的财务报告。它已经完成了至少两轮融资,筹集了至少1.6亿美元的资金,并得到了美国和新加坡投资者的支持。在这里观看我和AI代理开发者萨姆·维特韦恩的最新视频讨论,深入了解光火的方法与其他代理框架的比较,以及它对企业AI团队的重要性。
光火是如何做到的?光火的方法脱颖而出,因为它解决了长期存在的AI工程挑战:大规模的工具编排。大多数当前的代理在同时处理多个外部API或工具时会崩溃。光火的超级代理似乎在这方面表现得更好,这可能是因为它使用模型路由和基于检索的选择来根据任务动态选择工具和子模型。这一策略呼应了中国苏州大学提出的新兴研究CoTools框架,该框架增强了大型语言模型使用广泛且不断发展的工具集的方式。
与依赖提示工程或僵化微调的老方法不同,CoTools保持基础模型“冻结”,同时训练较小的组件高效判断、检索和调用工具。另一个推动因素是模型上下文协议(MCP),这是一种不太知名但越来越被采用的标准,允许代理在步骤之间携带更丰富的工具和记忆上下文。结合光火的专有数据集,MCP可能是其代理看起来比其他替代方案更具“可控性”的原因之一。
这与文墨相比如何?光火并不是第一家推广通用代理的初创公司。上个月由总部位于中国的蒙妮卡公司推出的文墨因其多代理系统引起了轰动,该系统可以自主运行网页浏览器、代码编辑器或电子表格引擎等工具,以完成多步骤任务。文墨有效地整合开源部分,包括网络工具和安苏尼克公司的克劳德等大型语言模型,令人惊讶。尽管没有建立专有的模型堆栈,它仍在GAIA基准测试中击败了开放AI——这是一个设计用来评估代理在现实世界任务自动化的合成测试。
然而,光火声称已经超越了文墨,在GAIA测试中获得了87.8%的成绩——高于文墨报告的86%——并且其架构包括专有组件和更广泛的工具覆盖。
大型科技公司:依然谨慎行事?
与此同时,美国最大的几家AI公司一直持谨慎态度。微软的主要AI代理产品办公室工作室专注于与Excel和Outlook等企业应用紧密对齐的细粒度垂直代理。开放AI的代理SDK提供了构建块,但未推出自己的全功能通用代理。亚马逊最近宣布的诺瓦行动采取了以开发者为中心的方法,通过SDK提供原子级浏览器操作,但与亚马逊的诺瓦大型语言模型和云基础设施紧密绑定。这些方法更加模块化、更安全,并且显然针对企业用途。但它们缺乏光火演示中展示的那种野心或自主性。
原因之一可能是风险规避。如果谷歌或微软的通用代理预订了错误的航班或在电话通话中说了奇怪的话,声誉成本可能会很高。这些公司还被锁定在自己的模型生态系统中,限制了它们在多模型编排方面的灵活性。相比之下,像光火这样的初创公司则有自由混合和匹配大型语言模型,并且能够快速行动。
企业应该关心吗?
这是战略问题。大多数企业不需要一个通用代理来预订晚餐或制作讽刺漫画。但他们很快可能需要能够处理特定领域、多步骤任务的代理,例如提取和格式化合规数据、协调客户入职或跨多种格式生成内容。在这种背景下,光火的工作变得更有意义。
通用代理越无缝和自主,并且它们集成语音、记忆和外部工具的能力越强,它们就越有可能开始与遗留的SaaS应用程序和RPA平台竞争。而且它们是以更轻量级的基础设施实现的。例如,光火声称其代理是“超级可控的”,并且营销人员、教师、招聘人员、设计师和分析师都可以轻松使用,只需少量设置。
通用代理时代不再是假设性的。它已经到来——并且发展迅速。
在这里观看视频:关于商业应用场景的每日洞察与VB每日
如果你想给老板留下深刻印象,VB每日可以帮到你。我们为你提供公司如何使用生成式AI的内幕消息,从监管变化到实际部署,以便你可以分享见解以获得最大投资回报。立即订阅阅读我们的隐私政策感谢订阅。查看更多VB新闻通讯。发生错误。
(以上内容均由Ai生成)