s3：使用最少数据训练搜索代理的新 rag 框架

快速阅读: 据《VentureBeat 公司》最新报道，研究人员开发了S3框架，这是一种开源工具，可更高效地构建检索增强生成系统，降低大型语言模型应用成本。S3通过分离搜索与生成，显著提升了问答任务的表现，尤其在数据效率和跨领域适应性上表现出色，适合多种企业应用场景。

订阅我们的每日和每周简报，获取关于行业领先人工智能报道的最新动态和独家内容。

了解更多伊利诺伊大学厄巴纳-香槟分校的研究人员引入了S3，这是一个开源框架，旨在比现有方法更高效地构建检索增强生成（RAG）系统。S3可以帮助开发者创建实际应用中的大型语言模型（LLM）应用程序，因为它简化并降低了在RAG架构中创建检索器模型的成本。RAG检索任何RAG系统的有效性都取决于其检索组件的质量。

在他们的论文中，研究人员将RAG方法的发展分为三个不同的阶段。“经典RAG”系统依赖于具有固定查询的静态检索方法，其中检索质量与最终生成性能无关。这些架构在需要上下文或多跳推理的查询上表现不佳。

随后的一个阶段被称为“预-RL-零”，在推理过程中引入了更多活跃的LLM参与。这些技术涉及多轮交互，交替进行查询生成、检索和推理。然而，它们通常依赖于零样本提示，并且缺乏可训练的组件来通过直接结果信号优化检索。

最近的一个阶段“RL-零”利用强化学习（RL）训练模型作为搜索代理，通过基于结果的反馈（如答案正确性）改进。一个例子是Search-R1，它训练模型在推理和搜索查询之间交替进行，并使用检索到的上下文。

尽管取得了这些进展，现有的RL-零方法通常使用忽略下游效用的搜索中心度量来优化检索。此外，它们需要微调LLM，这既昂贵又容易出错。通过将检索与生成纠缠在一起，它们限制了实际搜索效用以及与冻结或专有模型的兼容性。

不同类型的RAG 来源：arXiv

正如研究人员所说，这促使转向模块化框架，在该框架中搜索和生成被清晰分离，优化完全专注于下游效用的搜索质量。S3框架以一种与模型无关的方法解决了这个挑战。主要思想是训练一个具有结构化、多轮访问外部知识的搜索代理。这个搜索代理提高了检索阶段的质量，而不会影响生成最终答案的LLM。

在S3中，一个专门的搜索LLM迭代地与搜索引擎交互。它根据提示生成查询，检索相关文档，选择有用的证据子集，并决定是否继续搜索更多信息。一旦搜索结束，一个单独的、冻结的生成LLM会消耗这些累积的证据来生成最终答案。

S3框架以一种与模型无关的方法解决了这个挑战。主要思想是训练一个具有结构化、多轮访问外部知识的搜索代理。这个搜索代理提高了检索阶段的质量，而不会影响生成最终答案的LLM。

S3框架来源：arXiv

S3框架的一个核心创新是其奖励信号，即超过RAG的收益（GBR）。GBR量化了当条件为由S3检索到的文档时，生成器准确性相对于基线（检索与查询匹配的顶级文档）的改善程度。这种奖励激励搜索代理找到真正提高生成器输出质量的文档。

“S3将检索器（搜索代理）与生成器分开。这使得公司可以插入任何现成的或专有的LLM——无论是GPT-4、Claude还是内部模型——而不必对其进行微调，”该论文的主要作者、UIUC的博士生Patrick（Pengcheng）Jiang告诉VentureBeat。“对于受监管或合同约束的企业，或者那些依赖闭源LLM API的企业来说，这种模块化使S3非常实用。它允许他们在不触碰生成基础设施的情况下提高搜索质量。”

S3的实际应用

研究人员在六个通用领域的问答基准测试中测试了S3，将其与三类RAG系统进行了比较：端到端微调（例如Search-R1）、冻结生成器的静态检索（如经典的RAG管道）和冻结生成器的主动检索（例如结合Search-R1获得的文档和冻结的LLM）。

在他们的实验中，他们使用Qwen2.5-7B-Instruct作为搜索者的基线模型，使用Qwen2.5-14B-Instruct和Claude 3 Haiku作为冻结的生成LLM。S3在大多数基准测试中超过了静态、零样本和端到端微调的基线，并取得了平均分数。其数据效率尤其值得注意：S3仅使用2.4k个训练示例就取得了显著的提升，远远少于DeepRetrieval（一个静态检索框架）所需的70k个示例或Search-R1所需的170k个示例，同时在上下文质量和最终答案性能方面都优于两者。

S3与其他RAG技术对比来源：GitHub

“许多企业缺乏大规模标注的QA数据集或用于微调端到端LLM系统的GPU基础设施。S3通过启用最小监督和计算的强大检索性能降低了门槛，”Jiang说。“这意味着更快的原型设计、降低成本和更快的AI驱动搜索应用部署时间。”

研究结果表明优化策略的根本转变。正如研究人员在论文中指出的那样，RAG中的大部分性能提升来自于“改进搜索能力而不是对齐生成输出”，这意味着关注RL在搜索策略上的应用而非结合生成对齐能产生更好的结果。

对于企业应用而言，另一个关键发现是S3能够泛化到未经过训练的领域。尽管仅在通用QA上进行训练，S3在医学QA上也取得了零样本成功，这表明“强化学习的搜索技能比生成调整的方法更可靠地泛化”，研究人员如是说。

这种跨域适应性使S3非常适合专门的企业应用，这些应用通常处理专有或定制的数据集，而不需要大量的领域特定训练数据。这意味着单一训练的搜索者可以服务于不同的部门（例如法律、人力资源、客户服务）或适应不断变化的内容，如新产品文档。

“我们看到在医疗保健、企业知识管理和科学研究支持方面的即时潜力，在这些领域高质量的检索至关重要，但标记数据往往稀缺，”Jiang说。

VB每日提供的商业应用场景洞察

如果你想给老板留下深刻印象，VB每日可以帮你搞定。我们会告诉你公司如何使用生成式人工智能，从监管变化到实际部署，这样你就可以分享见解以实现最大ROI。立即订阅阅读我们的隐私政策感谢订阅。查看更多VB新闻通讯。

发生错误。

(以上内容均由Ai生成)

s3：使用最少数据训练搜索代理的新 rag 框架

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

谷歌Gemini 3 Pro发布

独具创新，直击痛点：深度解析华为十大最新方案

Palantir估值承压仍领跑AI赛道

Palantir与Snowflakes深化AI合作

Palantir与迪拜控股共建AI公司

Palantir携手Lumen共建企业AI平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台