Sakana AI 的 TreeQuest:部署多模型团队,其性能比单个 LLM 高出 30%

发布时间:2025年7月4日    来源:szf
Sakana AI 的 TreeQuest:部署多模型团队,其性能比单个 LLM 高出 30%

快速阅读: 《VentureBeat 公司》消息,日本Sakana AI推出Multi-LLM AB-MCTS技术,让多个大模型协作解决复杂问题,提升AI性能。该技术通过自适应搜索策略优化模型组合,已在基准测试中展现显著优势。

想要更智能的见解进入您的邮箱吗?订阅我们的每周新闻通讯,获取仅与企业AI、数据和安全领导者相关的内容。立即订阅

日本AI实验室Sakana AI推出了一种新技术,使多个大型语言模型(LLMs)能够在同一任务上协作,有效地创建一个“梦想团队”式的AI代理。这种方法被称为Multi-LLM AB-MCTS,使模型能够进行试错并结合其独特优势来解决任何单一模型都无法处理的复杂问题。

对于企业而言,这种方法提供了一种开发更强大和高效AI系统的方式。企业不再被锁定在单一供应商或模型中,而是可以动态利用不同前沿模型的最佳特性,将合适的AI分配给任务的适当部分,以实现更优越的结果。

集体智能的力量

前沿AI模型正在迅速发展。然而,每个模型都有其独特的强项和弱点,这些来源于其独特的训练数据和架构。有的可能在编码方面表现出色,而另一些则在创意写作方面更胜一筹。Sakana AI的研究人员认为,这些差异不是缺陷,而是创造集体智能的宝贵资源。

研究人员在他们的博客文章中写道:“我们看到这些偏见和不同的能力不是限制,而是创造集体智能的宝贵资源。”他们相信,正如人类最伟大的成就来自于多元化的团队一样,AI系统也可以通过合作取得更大的成就。“通过汇集他们的智慧,AI系统可以解决任何单一模型都无法克服的问题。”

前沿AI模型正在迅速发展。然而,每个模型都有其独特的强项和弱点,这些来源于其独特的训练数据和架构。有的可能在编码方面表现出色,而另一些则在创意写作方面更胜一筹。Sakana AI的研究人员认为,这些差异不是缺陷,而是创造集体智能的宝贵资源。

推理时思考得更久

Sakana AI的新算法是一种“推理时扩展”技术(也称为“测试时扩展”),这是过去一年中非常热门的研究领域。虽然大多数AI研究的重点是“训练时扩展”(使模型更大,并在更大的数据集上进行训练),但推理时扩展通过在模型训练完成后分配更多的计算资源来提高性能。

一种常见的方法是使用强化学习,促使模型生成更长、更详细的思维链(chain-of-thought)序列,如OpenAI o3和DeepSeek-R1等流行模型所示。另一种更简单的方法是重复采样,即多次向模型提供相同的提示以生成各种潜在解决方案,类似于头脑风暴会议。Sakana AI的工作结合并改进了这些想法。

“我们的框架提供了一种更聪明、更具战略性的最佳N版本(即重复采样)”,Sakana AI的研究科学家、论文合著者Takuya Akiba告诉VentureBeat。“它通过RL补充了像长CoT这样的推理技术。通过动态选择搜索策略和适当的LLM,这种方法在有限的LLM调用次数内最大化性能,从而在复杂任务上获得更好的结果。”

自适应分支搜索是如何工作的

新方法的核心是一种名为自适应分支蒙特卡洛树搜索(AB-MCTS)的算法。它使LLM能够通过智能平衡两种不同的搜索策略:“深入搜索”和“广泛搜索”。深入搜索涉及对有希望的答案进行反复优化,而广泛搜索意味着从头开始生成全新的解决方案。AB-MCTS结合了这些方法,使系统既能改进一个好点子,也能在遇到死胡同或发现另一个有前景的方向时转向尝试新的东西。

自适应分支搜索是如何工作的

为此,系统使用了蒙特卡洛树搜索(Monte Carlo Tree Search),这是一种著名的决策算法,曾被DeepMind公司推出的AlphaGo所使用。在每一步,AB-MCTS都使用概率模型来决定是优化现有解决方案还是生成一个新的方案更为战略。

不同的测试时扩展策略 来源:Sakana AI

研究人员进一步推进了这一方法,推出了Multi-LLM AB-MCTS,该方法不仅决定“做什么”(优化还是生成),还决定“由哪个LLM来做”。在任务开始时,系统并不知道哪个模型最适合这个问题。它首先尝试使用可用LLM的平衡组合,随着任务的推进,它会学习哪些模型更有效,并随着时间的推移将更多工作量分配给它们。

将AI“梦想团队”投入实际测试

研究人员在ARC-AGI-2基准测试上测试了他们的Multi-LLM AB-MCTS系统。ARC(抽象与推理语料库)旨在测试类似人类的能力来解决新颖的视觉推理问题,因此对AI来说非常困难。

该团队使用了包括o4-mini、Gemini 2.5 Pro和DeepSeek-R1在内的前沿模型组合。这些模型的集合成功地解决了120个测试问题中的超过30%,这一成绩显著优于任何单独模型的表现。该系统展示了根据特定问题动态分配最佳模型的能力。在存在明确解决方案路径的任务中,算法能快速识别出最有效的LLM并频繁使用它。

AB-MCTS与单个模型对比 来源:Sakana AI

更令人印象深刻的是,团队观察到一些模型解决了之前任何单一模型都无法解决的问题。在一个案例中,o4-mini模型生成的解决方案是错误的。然而,系统将这个有缺陷的尝试传递给了DeepSeek-R1和Gemini-2.5 Pro,后者能够分析错误并纠正它,最终得出正确的答案。

“这表明Multi-LLM AB-MCTS可以灵活地结合前沿模型,解决以前无法解决的问题,推动使用LLM作为集体智能所能实现的极限,”研究人员写道。

AB-MCTS可以在解决问题的不同阶段选择不同的模型 来源:Sakana AI

“除各自优缺点外,幻觉倾向也存在显著差异,”Akiba说。“通过创建一个不太容易产生幻觉的模型,就有可能实现两全其美:强大的逻辑能力和牢固的基础性。由于幻觉是商业环境中的一大问题,这种方法可能对缓解它很有价值。”

从研究到实际应用

为了帮助开发者和企业应用这项技术,Sakana AI已经发布了一个底层算法,名为开源框架‘TreeQuest’,采用Apache 2.0许可证(可用于商业用途)。TreeQuest提供了一个灵活的API,允许用户为自己的任务实现Multi-LLM AB-MCTS,并自定义评分和逻辑。

“尽管我们目前正处于将AB-MCTS应用于具体业务问题的早期阶段,但我们的研究揭示了几个领域的巨大潜力,”Akiba表示。

除了ARC-AGI-2基准测试之外,该团队还成功将AB-MCTS应用于复杂算法编程和提高机器学习模型准确性等任务。

“AB-MCTS对于需要迭代试错的问题也非常有效,例如优化现有软件的性能指标,”Akiba表示。“例如,它可以用于自动寻找改善网络服务响应延迟的方法。”

除了ARC-AGI-2基准测试之外,该团队还成功将AB-MCTS应用于复杂算法编程和提高机器学习模型准确性等任务。

实用且开源工具的发布可能会为新一代更强大和可靠的商业AI应用铺平道路。

每日关于VB日常业务用例的见解

如果您想给老板留下深刻印象,‘VB Daily’可以帮助您。我们为您提供有关公司如何使用生成式AI的内部信息,从监管变化到实际部署,以便您可以分享见解以获得最大回报。

每日关于VB日常业务用例的见解

立即订阅

阅读我们的隐私政策

感谢订阅。请查看更多的VB新闻通讯。

发生错误了。

(以上内容均由Ai生成)

关键词: 30AiLlmSakanaTreequest

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日