Sakana AI 的 TreeQuest：部署多模型团队，其性能比单个 LLM 高出 30%

快速阅读: 《VentureBeat 公司》消息，日本Sakana AI推出Multi-LLM AB-MCTS技术，让多个大模型协作解决复杂问题，提升AI性能。该技术通过自适应搜索策略优化模型组合，已在基准测试中展现显著优势。

想要更智能的见解进入您的邮箱吗？订阅我们的每周新闻通讯，获取仅与企业AI、数据和安全领导者相关的内容。立即订阅

日本AI实验室Sakana AI推出了一种新技术，使多个大型语言模型（LLMs）能够在同一任务上协作，有效地创建一个“梦想团队”式的AI代理。这种方法被称为Multi-LLM AB-MCTS，使模型能够进行试错并结合其独特优势来解决任何单一模型都无法处理的复杂问题。

对于企业而言，这种方法提供了一种开发更强大和高效AI系统的方式。企业不再被锁定在单一供应商或模型中，而是可以动态利用不同前沿模型的最佳特性，将合适的AI分配给任务的适当部分，以实现更优越的结果。

集体智能的力量

前沿AI模型正在迅速发展。然而，每个模型都有其独特的强项和弱点，这些来源于其独特的训练数据和架构。有的可能在编码方面表现出色，而另一些则在创意写作方面更胜一筹。Sakana AI的研究人员认为，这些差异不是缺陷，而是创造集体智能的宝贵资源。

研究人员在他们的博客文章中写道：“我们看到这些偏见和不同的能力不是限制，而是创造集体智能的宝贵资源。”他们相信，正如人类最伟大的成就来自于多元化的团队一样，AI系统也可以通过合作取得更大的成就。“通过汇集他们的智慧，AI系统可以解决任何单一模型都无法克服的问题。”

推理时思考得更久

Sakana AI的新算法是一种“推理时扩展”技术（也称为“测试时扩展”），这是过去一年中非常热门的研究领域。虽然大多数AI研究的重点是“训练时扩展”（使模型更大，并在更大的数据集上进行训练），但推理时扩展通过在模型训练完成后分配更多的计算资源来提高性能。

一种常见的方法是使用强化学习，促使模型生成更长、更详细的思维链（chain-of-thought）序列，如OpenAI o3和DeepSeek-R1等流行模型所示。另一种更简单的方法是重复采样，即多次向模型提供相同的提示以生成各种潜在解决方案，类似于头脑风暴会议。Sakana AI的工作结合并改进了这些想法。

“我们的框架提供了一种更聪明、更具战略性的最佳N版本（即重复采样）”，Sakana AI的研究科学家、论文合著者Takuya Akiba告诉VentureBeat。“它通过RL补充了像长CoT这样的推理技术。通过动态选择搜索策略和适当的LLM，这种方法在有限的LLM调用次数内最大化性能，从而在复杂任务上获得更好的结果。”

自适应分支搜索是如何工作的

新方法的核心是一种名为自适应分支蒙特卡洛树搜索（AB-MCTS）的算法。它使LLM能够通过智能平衡两种不同的搜索策略：“深入搜索”和“广泛搜索”。深入搜索涉及对有希望的答案进行反复优化，而广泛搜索意味着从头开始生成全新的解决方案。AB-MCTS结合了这些方法，使系统既能改进一个好点子，也能在遇到死胡同或发现另一个有前景的方向时转向尝试新的东西。

自适应分支搜索是如何工作的

为此，系统使用了蒙特卡洛树搜索（Monte Carlo Tree Search），这是一种著名的决策算法，曾被DeepMind公司推出的AlphaGo所使用。在每一步，AB-MCTS都使用概率模型来决定是优化现有解决方案还是生成一个新的方案更为战略。

不同的测试时扩展策略来源：Sakana AI

研究人员进一步推进了这一方法，推出了Multi-LLM AB-MCTS，该方法不仅决定“做什么”（优化还是生成），还决定“由哪个LLM来做”。在任务开始时，系统并不知道哪个模型最适合这个问题。它首先尝试使用可用LLM的平衡组合，随着任务的推进，它会学习哪些模型更有效，并随着时间的推移将更多工作量分配给它们。

将AI“梦想团队”投入实际测试

研究人员在ARC-AGI-2基准测试上测试了他们的Multi-LLM AB-MCTS系统。ARC（抽象与推理语料库）旨在测试类似人类的能力来解决新颖的视觉推理问题，因此对AI来说非常困难。

该团队使用了包括o4-mini、Gemini 2.5 Pro和DeepSeek-R1在内的前沿模型组合。这些模型的集合成功地解决了120个测试问题中的超过30%，这一成绩显著优于任何单独模型的表现。该系统展示了根据特定问题动态分配最佳模型的能力。在存在明确解决方案路径的任务中，算法能快速识别出最有效的LLM并频繁使用它。

AB-MCTS与单个模型对比来源：Sakana AI

更令人印象深刻的是，团队观察到一些模型解决了之前任何单一模型都无法解决的问题。在一个案例中，o4-mini模型生成的解决方案是错误的。然而，系统将这个有缺陷的尝试传递给了DeepSeek-R1和Gemini-2.5 Pro，后者能够分析错误并纠正它，最终得出正确的答案。

“这表明Multi-LLM AB-MCTS可以灵活地结合前沿模型，解决以前无法解决的问题，推动使用LLM作为集体智能所能实现的极限，”研究人员写道。

AB-MCTS可以在解决问题的不同阶段选择不同的模型来源：Sakana AI

“除各自优缺点外，幻觉倾向也存在显著差异，”Akiba说。“通过创建一个不太容易产生幻觉的模型，就有可能实现两全其美：强大的逻辑能力和牢固的基础性。由于幻觉是商业环境中的一大问题，这种方法可能对缓解它很有价值。”

从研究到实际应用

为了帮助开发者和企业应用这项技术，Sakana AI已经发布了一个底层算法，名为开源框架‘TreeQuest’，采用Apache 2.0许可证（可用于商业用途）。TreeQuest提供了一个灵活的API，允许用户为自己的任务实现Multi-LLM AB-MCTS，并自定义评分和逻辑。

“尽管我们目前正处于将AB-MCTS应用于具体业务问题的早期阶段，但我们的研究揭示了几个领域的巨大潜力，”Akiba表示。

除了ARC-AGI-2基准测试之外，该团队还成功将AB-MCTS应用于复杂算法编程和提高机器学习模型准确性等任务。

“AB-MCTS对于需要迭代试错的问题也非常有效，例如优化现有软件的性能指标，”Akiba表示。“例如，它可以用于自动寻找改善网络服务响应延迟的方法。”

除了ARC-AGI-2基准测试之外，该团队还成功将AB-MCTS应用于复杂算法编程和提高机器学习模型准确性等任务。

实用且开源工具的发布可能会为新一代更强大和可靠的商业AI应用铺平道路。