AI

GEPA优化大模型,无需昂贵强化学习

发布时间:2025年8月19日    来源:szf
GEPA优化大模型,无需昂贵强化学习

快速阅读: 加州大学伯克利分校、斯坦福大学和Databricks推出GEPA,优化大型语言模型适应特定任务,比传统强化学习效率高35倍,降低成本,提高准确性,帮助企业快速开发复杂AI系统。

加州大学伯克利分校、斯坦福大学和 Databricks 的研究人员推出了一种名为 GEPA 的新 AI 优化方法,该方法在调整大型语言模型以适应特定任务时显著优于传统的强化学习技术。GEPA 不再依赖数千次试错尝试,而是利用大型语言模型自身的语言理解能力来反思性能、诊断错误并迭代改进指令。与现有技术相比,GEPA 不仅更准确,而且效率更高,最多可减少 35 倍的试验次数。

对于构建复杂 AI 代理和工作流的企业而言,这将直接转化为更快的开发周期、更低的计算成本以及更高效、可靠的应用程序。

现代企业 AI 应用通常不是简单的单次调用大型语言模型,而是复杂的“复合 AI 系统”,这些系统将多个大型语言模型模块、外部工具(如数据库或代码解释器)和自定义逻辑串联起来,以执行复杂的任务,包括多步骤研究和数据分析。

一种常见的优化方法是使用强化学习,例如 Group Relative Policy Optimization (GRPO),这是一种在流行推理模型 DeepSeek-R1 中采用的技术。该方法将系统视为黑箱,运行任务后获得一个简单的成功指标(如 7/10 分),然后利用此反馈逐步调整模型参数。然而,强化学习的主要缺点是样本效率低下,通常需要数万甚至数十万次试验才能有效学习。对于涉及昂贵工具调用(如 API 查询、代码编译)或使用强大专有模型的实际企业应用来说,这一过程非常缓慢且成本高昂。

加州大学伯克利分校博士生 Lakshya A Agrawal 表示,这种复杂性是许多公司的主要障碍。“对于许多团队来说,由于成本和复杂性,强化学习并不实用——他们通常的做法是手动进行提示工程。”他指出,GEPA 旨在帮助那些需要优化基于顶级模型的系统的团队,在不管理自定义 GPU 集群的情况下提高性能。

研究人员将这一挑战描述为:“如何从每次昂贵的试验中提取最大的学习信号,以在数据有限或预算受限的情况下有效适应复杂的模块化 AI 系统?”

GEPA 框架通过将稀疏奖励替换为丰富的自然语言反馈来应对这一挑战。它利用整个 AI 系统的执行过程(包括推理步骤、工具调用和错误消息)可以序列化为文本,而大型语言模型能够读取和理解这些文本。GEPA 的方法基于三个核心支柱。

首先是“遗传提示进化”,GEPA 将一组提示视为基因库,通过迭代“变异”生成新的、可能更好的版本。这一变异过程由第二个支柱“自然语言反馈反思”驱动。在几次试验后,GEPA 向大型语言模型提供完整的执行轨迹(系统尝试做什么)和结果(正确或错误之处)。大型语言模型随后以自然语言“反思”这些反馈,诊断问题并编写更详细、更精确的提示。例如,在代码生成任务中,它不仅会看到低分,还会分析编译错误,并得出需要指定特定库版本的结论。

第三大支柱是“基于帕累托的选择”,确保智能探索。研究人员设计GEPA系统,不仅关注表现最佳的单一提示,这可能导致陷入局部最优解,而是维护一组多样化的“专家”提示。GEPA跟踪不同实例上表现最佳的提示,形成一份顶尖候选名单。通过从这个多样化的策略集合中抽样,GEPA能够探索更多解决方案,更有可能发现适用于广泛输入的提示。

选择单一最佳候选(左图)可能导致模型陷入局部最小值,而帕累托选择(右图)可以探索更多选项并找到最优解。整个过程的有效性取决于研究者所称的“反馈工程”。Agrawal解释说,关键在于呈现系统已经产生的丰富文本细节,而这些细节通常会被丢弃。“传统流程经常将这些细节简化为单一数值奖励,掩盖了特定结果发生的原因。”他说,“GEPA的核心指导原则是构建反馈,不仅展示结果,还展示中间轨迹和错误的纯文本描述——就像人类用来诊断系统行为的证据一样。”

例如,在文档检索系统中,这意味着列出哪些文档正确检索到,哪些未被检索到,而不仅仅是计算最终得分。

研究人员在四个不同的任务上评估了GEPA,包括多跳问答(HotpotQA)和隐私保护查询(PUPA)。他们使用了开源(Qwen3 8B)和专有(GPT-4.1 mini)模型,将GEPA与基于强化学习的GRPO和最先进的提示优化器MIPROv2进行了比较。

在所有任务中,GEPA显著优于GRPO,最高可提高19%的分数,同时使用的rollouts数量减少了35倍。Agrawal提供了一个具体的效率提升例子:“我们用GEPA优化了一个问答系统,大约用了3小时,而GRPO需要24小时——开发时间减少了8倍,性能提高了20%。”他解释道,“在我们的测试中,基于强化学习的同一场景优化成本约为300美元的GPU时间,而GEPA的成本不到20美元,效果更好——实验中的成本节省了15倍。”

除了原始性能,研究人员发现,GEPA优化的系统在面对新的未知数据时更加可靠。这通过“泛化差距”来衡量,即训练数据和最终测试数据之间的性能差异。Agrawal认为,这是因为GEPA从更丰富的反馈中学习。“GEPA较小的泛化差距可能源于其对每个结果的丰富自然语言反馈——哪些有效,哪些失败,以及原因——而不仅仅是依赖单个标量奖励。”他说,“这可能鼓励系统发展基于更广泛成功理解的指令和策略,而不仅仅是学习训练数据中的特定模式。”对于企业而言,这种改进的可靠性意味着在客户交互中应用更稳健、更适应性强的AI系统。

一个重要的实际好处是,GEPA的基于指令的提示比MIPROv2等优化器生成的提示短9.2倍,后者包含许多少量示例。较短的提示减少了延迟,降低了API模型的成本,使最终应用在生产中运行得更快、更便宜。

论文还展示了利用GEPA作为“推理时间”搜索策略的有希望的结果,将AI从单答案生成器转变为迭代问题解决者。Agrawal描述了一种情景,其中GEPA可以集成到公司的持续集成/持续交付(CI/CD)管道中。当提交新代码时,GEPA可以自动生成和优化多个版本,测试它们的性能,并打开一个包含最佳性能变体的拉取请求供工程师审查。“这将优化变成一个连续的自动化过程——快速生成往往能匹配或超过专家手动调优的解决方案。”Agrawal指出。在CUDA代码生成的实验中,这种方法在20%的任务上达到了专家水平,而GPT-4o的单次尝试则为0%。

论文作者认为,GEPA是迈向新型AI开发范式的基础步骤。但其最直接的影响可能是谁能够构建高性能系统。“我们预计GEPA将促进AI系统建设的积极转变——使这些系统的优化变得对终端用户来说更加容易,他们通常拥有与任务相关的领域知识,但不一定有时间和意愿去学习复杂的强化学习技术。”Agrawal说,“它直接赋予了具有具体任务领域知识的利益相关者权力。”

每日商业洞察,尽在VB Daily

如果你想给老板留下深刻印象,VB Daily为你提供全面支持。我们深入报道企业如何应用生成式AI,涵盖监管变化和实际部署案例,帮助你分享有价值的信息,实现最大投资回报率。

立即订阅

阅读我们的隐私政策

感谢订阅,更多精彩内容请访问VB Daily的其他通讯。

发生错误

(以上内容均由Ai生成)

你可能还想读

Snapchat免费开放“Imagine Lens”,AI图像生成全民可用

Snapchat免费开放“Imagine Lens”,AI图像生成全民可用

快速阅读: Snapchat宣布其AI工具“Imagine Lens”免费开放给所有用户,旨在对抗Meta AI和OpenAI的竞争,支持用户通过文本提示生成个性化图像,功能现已在美国上线,并计划扩展至更多国家。 Snapchat正式宣布, […]

发布时间:2025年10月23日
昆仑万维SkyReels全新版11月初上线,推动AI视频创作平民化

昆仑万维SkyReels全新版11月初上线,推动AI视频创作平民化

快速阅读: 昆仑万维AI视频产品SkyReels全新版本11月初上线,巩固其全球领先位置,推动全民视频创作。产品涵盖长视频生成、角色一致性等技术,已开源多个SOTA模型,促进AI视频创作平民化。 昆仑万维的AI视频产品SkyReels宣布, […]

发布时间:2025年10月23日
LiblibAI获1.3亿美元融资,成国内最大AI应用投资

LiblibAI获1.3亿美元融资,成国内最大AI应用投资

快速阅读: LiblibAI完成1.3亿美元B轮融资,由红杉中国等领投,成为国内AI应用领域最大融资。公司以多模态模型和创作社区为核心,已孵化超2000万AI创作者,计划加速全球化布局,推出2.0版“AI专业创作工作室”。 据Z Poten […]

发布时间:2025年10月23日
苹果MIND团队加速招聘,应对AI模型推理缺陷

苹果MIND团队加速招聘,应对AI模型推理缺陷

快速阅读: 苹果因最新研究揭示大型推理模型缺陷,正加快招聘AI领域高级人才。西雅图MIND团队招募专家,目标开发更准确高效的LLM和VLM架构,解决现有AI模型局限,推进下一代AI技术。 在苹果公司最近发布一项引发广泛讨论的研究,揭示当前大 […]

发布时间:2025年10月23日
Meta裁撤600人重塑AI架构,扎克伯格力挺新战略

Meta裁撤600人重塑AI架构,扎克伯格力挺新战略

快速阅读: Meta调整AI部门,计划裁员约600人,旨在减少官僚、加速决策。新成立的TBD Lab不受影响并将扩张,CEO扎克伯格支持AI主管Wang的策略。此次变动背景为内部关系紧张,部分科学家与管理层存分歧。 Meta公司正在对其人工 […]

发布时间:2025年10月23日
阿里“C计划”首发:夸克对话助手抢占AI市场

阿里“C计划”首发:夸克对话助手抢占AI市场

快速阅读: 阿里巴巴推出夸克App对话助手,采用Qwen最新闭源模型,集成问答、搜索、拍照搜题等功能,月活用户超1.5亿,主打25岁以下年轻市场,为阿里“C计划”首秀。 阿里巴巴“C计划”的 首款 产品近日正式揭晓,即夸克App上线的对话助 […]

发布时间:2025年10月23日
火山引擎发布Seedance1.0pro,首尾帧能力提升AI视频创作水平

火山引擎发布Seedance1.0pro,首尾帧能力提升AI视频创作水平

快速阅读: 火山引擎上线豆包视频生成模型1.0pro,提升AI视频创作的可控性和一致性,支持复杂场景和大幅运动的真实物理呈现,为企业和个人用户提供强大工具。 火山引擎正式上线了豆包视频生成模型1.0pro(Doubao-Seedance-1 […]

发布时间:2025年10月23日
生数科技Vidu Q2视频大模型API全面开放接入

生数科技Vidu Q2视频大模型API全面开放接入

快速阅读: 生数科技宣布Vidu Q2视频大模型API全面开放,该技术在广告、商品展示等领域展现独特价值,通过精细的表情生成技术提升视频的情感表现力,增强用户转化率。 近日,生数科技正式宣布 Vidu Q2参考生视频大模型 API 全面开放 […]

发布时间:2025年10月23日