s3:使用最少数据训练搜索代理的新 rag 框架

发布时间:2025年5月29日    来源:szf
s3:使用最少数据训练搜索代理的新 rag 框架

快速阅读: 据《VentureBeat 公司》最新报道,研究人员开发了S3框架,这是一种开源工具,可更高效地构建检索增强生成系统,降低大型语言模型应用成本。S3通过分离搜索与生成,显著提升了问答任务的表现,尤其在数据效率和跨领域适应性上表现出色,适合多种企业应用场景。

订阅我们的每日和每周简报,获取关于行业领先人工智能报道的最新动态和独家内容。

了解更多伊利诺伊大学厄巴纳-香槟分校的研究人员引入了S3,这是一个开源框架,旨在比现有方法更高效地构建检索增强生成(RAG)系统。S3可以帮助开发者创建实际应用中的大型语言模型(LLM)应用程序,因为它简化并降低了在RAG架构中创建检索器模型的成本。RAG检索任何RAG系统的有效性都取决于其检索组件的质量。

在他们的论文中,研究人员将RAG方法的发展分为三个不同的阶段。“经典RAG”系统依赖于具有固定查询的静态检索方法,其中检索质量与最终生成性能无关。这些架构在需要上下文或多跳推理的查询上表现不佳。

随后的一个阶段被称为“预-RL-零”,在推理过程中引入了更多活跃的LLM参与。这些技术涉及多轮交互,交替进行查询生成、检索和推理。然而,它们通常依赖于零样本提示,并且缺乏可训练的组件来通过直接结果信号优化检索。

最近的一个阶段“RL-零”利用强化学习(RL)训练模型作为搜索代理,通过基于结果的反馈(如答案正确性)改进。一个例子是Search-R1,它训练模型在推理和搜索查询之间交替进行,并使用检索到的上下文。

尽管取得了这些进展,现有的RL-零方法通常使用忽略下游效用的搜索中心度量来优化检索。此外,它们需要微调LLM,这既昂贵又容易出错。通过将检索与生成纠缠在一起,它们限制了实际搜索效用以及与冻结或专有模型的兼容性。

不同类型的RAG 来源:arXiv

正如研究人员所说,这促使转向模块化框架,在该框架中搜索和生成被清晰分离,优化完全专注于下游效用的搜索质量。S3框架以一种与模型无关的方法解决了这个挑战。主要思想是训练一个具有结构化、多轮访问外部知识的搜索代理。这个搜索代理提高了检索阶段的质量,而不会影响生成最终答案的LLM。

在S3中,一个专门的搜索LLM迭代地与搜索引擎交互。它根据提示生成查询,检索相关文档,选择有用的证据子集,并决定是否继续搜索更多信息。一旦搜索结束,一个单独的、冻结的生成LLM会消耗这些累积的证据来生成最终答案。

S3框架以一种与模型无关的方法解决了这个挑战。主要思想是训练一个具有结构化、多轮访问外部知识的搜索代理。这个搜索代理提高了检索阶段的质量,而不会影响生成最终答案的LLM。

S3框架 来源:arXiv

S3框架的一个核心创新是其奖励信号,即超过RAG的收益(GBR)。GBR量化了当条件为由S3检索到的文档时,生成器准确性相对于基线(检索与查询匹配的顶级文档)的改善程度。这种奖励激励搜索代理找到真正提高生成器输出质量的文档。

“S3将检索器(搜索代理)与生成器分开。这使得公司可以插入任何现成的或专有的LLM——无论是GPT-4、Claude还是内部模型——而不必对其进行微调,”该论文的主要作者、UIUC的博士生Patrick(Pengcheng)Jiang告诉VentureBeat。“对于受监管或合同约束的企业,或者那些依赖闭源LLM API的企业来说,这种模块化使S3非常实用。它允许他们在不触碰生成基础设施的情况下提高搜索质量。”

S3的实际应用

研究人员在六个通用领域的问答基准测试中测试了S3,将其与三类RAG系统进行了比较:端到端微调(例如Search-R1)、冻结生成器的静态检索(如经典的RAG管道)和冻结生成器的主动检索(例如结合Search-R1获得的文档和冻结的LLM)。

在他们的实验中,他们使用Qwen2.5-7B-Instruct作为搜索者的基线模型,使用Qwen2.5-14B-Instruct和Claude 3 Haiku作为冻结的生成LLM。S3在大多数基准测试中超过了静态、零样本和端到端微调的基线,并取得了平均分数。其数据效率尤其值得注意:S3仅使用2.4k个训练示例就取得了显著的提升,远远少于DeepRetrieval(一个静态检索框架)所需的70k个示例或Search-R1所需的170k个示例,同时在上下文质量和最终答案性能方面都优于两者。

S3与其他RAG技术对比 来源:GitHub

“许多企业缺乏大规模标注的QA数据集或用于微调端到端LLM系统的GPU基础设施。S3通过启用最小监督和计算的强大检索性能降低了门槛,”Jiang说。“这意味着更快的原型设计、降低成本和更快的AI驱动搜索应用部署时间。”

研究结果表明优化策略的根本转变。正如研究人员在论文中指出的那样,RAG中的大部分性能提升来自于“改进搜索能力而不是对齐生成输出”,这意味着关注RL在搜索策略上的应用而非结合生成对齐能产生更好的结果。

对于企业应用而言,另一个关键发现是S3能够泛化到未经过训练的领域。尽管仅在通用QA上进行训练,S3在医学QA上也取得了零样本成功,这表明“强化学习的搜索技能比生成调整的方法更可靠地泛化”,研究人员如是说。

这种跨域适应性使S3非常适合专门的企业应用,这些应用通常处理专有或定制的数据集,而不需要大量的领域特定训练数据。这意味着单一训练的搜索者可以服务于不同的部门(例如法律、人力资源、客户服务)或适应不断变化的内容,如新产品文档。

“我们看到在医疗保健、企业知识管理和科学研究支持方面的即时潜力,在这些领域高质量的检索至关重要,但标记数据往往稀缺,”Jiang说。

VB每日提供的商业应用场景洞察

如果你想给老板留下深刻印象,VB每日可以帮你搞定。我们会告诉你公司如何使用生成式人工智能,从监管变化到实际部署,这样你就可以分享见解以实现最大ROI。立即订阅阅读我们的隐私政策感谢订阅。查看更多VB新闻通讯。

发生错误。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日