s3:使用最少数据训练搜索代理的新 rag 框架
快速阅读: 据《VentureBeat 公司》最新报道,研究人员开发了S3框架,这是一种开源工具,可更高效地构建检索增强生成系统,降低大型语言模型应用成本。S3通过分离搜索与生成,显著提升了问答任务的表现,尤其在数据效率和跨领域适应性上表现出色,适合多种企业应用场景。
订阅我们的每日和每周简报,获取关于行业领先人工智能报道的最新动态和独家内容。
了解更多伊利诺伊大学厄巴纳-香槟分校的研究人员引入了S3,这是一个开源框架,旨在比现有方法更高效地构建检索增强生成(RAG)系统。S3可以帮助开发者创建实际应用中的大型语言模型(LLM)应用程序,因为它简化并降低了在RAG架构中创建检索器模型的成本。RAG检索任何RAG系统的有效性都取决于其检索组件的质量。
在他们的论文中,研究人员将RAG方法的发展分为三个不同的阶段。“经典RAG”系统依赖于具有固定查询的静态检索方法,其中检索质量与最终生成性能无关。这些架构在需要上下文或多跳推理的查询上表现不佳。
随后的一个阶段被称为“预-RL-零”,在推理过程中引入了更多活跃的LLM参与。这些技术涉及多轮交互,交替进行查询生成、检索和推理。然而,它们通常依赖于零样本提示,并且缺乏可训练的组件来通过直接结果信号优化检索。
最近的一个阶段“RL-零”利用强化学习(RL)训练模型作为搜索代理,通过基于结果的反馈(如答案正确性)改进。一个例子是Search-R1,它训练模型在推理和搜索查询之间交替进行,并使用检索到的上下文。
尽管取得了这些进展,现有的RL-零方法通常使用忽略下游效用的搜索中心度量来优化检索。此外,它们需要微调LLM,这既昂贵又容易出错。通过将检索与生成纠缠在一起,它们限制了实际搜索效用以及与冻结或专有模型的兼容性。
不同类型的RAG 来源:arXiv
正如研究人员所说,这促使转向模块化框架,在该框架中搜索和生成被清晰分离,优化完全专注于下游效用的搜索质量。S3框架以一种与模型无关的方法解决了这个挑战。主要思想是训练一个具有结构化、多轮访问外部知识的搜索代理。这个搜索代理提高了检索阶段的质量,而不会影响生成最终答案的LLM。
在S3中,一个专门的搜索LLM迭代地与搜索引擎交互。它根据提示生成查询,检索相关文档,选择有用的证据子集,并决定是否继续搜索更多信息。一旦搜索结束,一个单独的、冻结的生成LLM会消耗这些累积的证据来生成最终答案。
S3框架以一种与模型无关的方法解决了这个挑战。主要思想是训练一个具有结构化、多轮访问外部知识的搜索代理。这个搜索代理提高了检索阶段的质量,而不会影响生成最终答案的LLM。
S3框架 来源:arXiv
S3框架的一个核心创新是其奖励信号,即超过RAG的收益(GBR)。GBR量化了当条件为由S3检索到的文档时,生成器准确性相对于基线(检索与查询匹配的顶级文档)的改善程度。这种奖励激励搜索代理找到真正提高生成器输出质量的文档。
“S3将检索器(搜索代理)与生成器分开。这使得公司可以插入任何现成的或专有的LLM——无论是GPT-4、Claude还是内部模型——而不必对其进行微调,”该论文的主要作者、UIUC的博士生Patrick(Pengcheng)Jiang告诉VentureBeat。“对于受监管或合同约束的企业,或者那些依赖闭源LLM API的企业来说,这种模块化使S3非常实用。它允许他们在不触碰生成基础设施的情况下提高搜索质量。”
S3的实际应用
研究人员在六个通用领域的问答基准测试中测试了S3,将其与三类RAG系统进行了比较:端到端微调(例如Search-R1)、冻结生成器的静态检索(如经典的RAG管道)和冻结生成器的主动检索(例如结合Search-R1获得的文档和冻结的LLM)。
在他们的实验中,他们使用Qwen2.5-7B-Instruct作为搜索者的基线模型,使用Qwen2.5-14B-Instruct和Claude 3 Haiku作为冻结的生成LLM。S3在大多数基准测试中超过了静态、零样本和端到端微调的基线,并取得了平均分数。其数据效率尤其值得注意:S3仅使用2.4k个训练示例就取得了显著的提升,远远少于DeepRetrieval(一个静态检索框架)所需的70k个示例或Search-R1所需的170k个示例,同时在上下文质量和最终答案性能方面都优于两者。
S3与其他RAG技术对比 来源:GitHub
“许多企业缺乏大规模标注的QA数据集或用于微调端到端LLM系统的GPU基础设施。S3通过启用最小监督和计算的强大检索性能降低了门槛,”Jiang说。“这意味着更快的原型设计、降低成本和更快的AI驱动搜索应用部署时间。”
研究结果表明优化策略的根本转变。正如研究人员在论文中指出的那样,RAG中的大部分性能提升来自于“改进搜索能力而不是对齐生成输出”,这意味着关注RL在搜索策略上的应用而非结合生成对齐能产生更好的结果。
对于企业应用而言,另一个关键发现是S3能够泛化到未经过训练的领域。尽管仅在通用QA上进行训练,S3在医学QA上也取得了零样本成功,这表明“强化学习的搜索技能比生成调整的方法更可靠地泛化”,研究人员如是说。
这种跨域适应性使S3非常适合专门的企业应用,这些应用通常处理专有或定制的数据集,而不需要大量的领域特定训练数据。这意味着单一训练的搜索者可以服务于不同的部门(例如法律、人力资源、客户服务)或适应不断变化的内容,如新产品文档。
“我们看到在医疗保健、企业知识管理和科学研究支持方面的即时潜力,在这些领域高质量的检索至关重要,但标记数据往往稀缺,”Jiang说。
VB每日提供的商业应用场景洞察
如果你想给老板留下深刻印象,VB每日可以帮你搞定。我们会告诉你公司如何使用生成式人工智能,从监管变化到实际部署,这样你就可以分享见解以实现最大ROI。立即订阅阅读我们的隐私政策感谢订阅。查看更多VB新闻通讯。
发生错误。
(以上内容均由Ai生成)