AI

程序记忆降低AI代理成本与复杂度

发布时间:2025年8月27日    来源:szf
程序记忆降低AI代理成本与复杂度

快速阅读: 浙江大学和阿里巴巴开发Memp技术,为大型语言模型提供动态程序记忆,提高处理复杂任务的效率和成功率,减少重复探索,实现跨任务知识迁移。

浙江大学和阿里巴巴集团开发了一种新技术,赋予大型语言模型(LLM)代理动态记忆,使它们在处理复杂任务时更加高效和有效。这项名为Memp的技术为代理提供了“程序记忆”,这种记忆会随着经验的积累而不断更新,类似于人类通过实践学习的方式。

Memp创建了一个终身学习框架,使代理在面对新任务时不必每次都从头开始。相反,它们会在遇到新情况时逐渐变得更好、更高效,这是实现可靠企业自动化的关键需求。

研究人员指出,尽管许多复杂任务表面不同,但它们在深层次上具有共同的结构特征。因此,代理应能够从过去的成功和失败中提取并重用经验,而不是每次都需要重新学习这些模式。这需要一种特定的“程序记忆”,即人类负责打字或骑自行车等技能的长期记忆,这些技能会随着练习而变得自动。

当前的代理系统通常缺乏这种能力。它们的程序知识通常由开发人员手工编写,存储在僵硬的提示模板中或嵌入模型参数中,这些参数昂贵且难以更新。即使现有的增强记忆框架也只提供粗略的抽象,并不能充分解决如何构建、索引、纠正和最终修剪代理生命周期中的技能的问题。

因此,研究者在论文中提到,“没有原则性方法来量化代理如何高效地发展其程序库,也无法保证新体验能改善而非削弱性能。”

Memp是一个与任务无关的框架,将程序记忆视为一个核心组件进行优化。它包括三个关键阶段,形成一个持续循环:构建、检索和更新记忆。记忆从代理过去的经历或“轨迹”中构建。研究人员探索了以逐字步骤或提炼成更高层次脚本的形式存储这些记忆。在检索过程中,代理在接收到新任务时搜索最相关的过去经验。团队尝试了不同的方法,如向量搜索,以匹配新任务描述与过去查询,或提取关键词找到最佳匹配。

最关键的部分是更新机制。Memp引入了多种策略,确保代理的记忆随时间演变。随着代理完成更多任务,其记忆可以通过简单添加新经验、筛选成功结果或最有效地反思失败来纠正和修订原始记忆。

Memp专注于动态、演化的记忆,处于一个旨在使AI代理更适合长期任务的研究领域。这项工作与其他努力相呼应,如Mem0,它将长时间对话中的关键信息整合为结构化事实和知识图谱,以确保一致性。类似地,A-MEM使代理能够自主创建并链接“记忆笔记”,形成复杂的知识结构。

然而,共同作者方润南强调了Memp与其他框架之间的关键区别。“Mem0和A-MEM是出色的工作……但它们侧重于记住单个轨迹或对话中的显著内容,”方润南在接受VentureBeat采访时说。它们帮助代理记住“发生了什么”。相比之下,“Memp针对跨轨迹的程序记忆。”它关注可以跨类似任务推广的“如何做”知识,防止代理每次重新探索。

方表示:“通过将过去的成功工作流程提炼为可重用的过程先验,Memp 提高了成功率并缩短了步骤。” 他补充说:“关键是我们还引入了一种更新机制,使这种过程记忆能够不断改进——毕竟,熟能生巧。”

解决“冷启动”问题

虽然从过去轨迹中学习的概念非常强大,但它提出了一个实际问题:当没有完美的例子可供学习时,代理如何建立其初始记忆?研究人员以务实的方法解决了这个“冷启动”问题。方解释说,开发人员可以首先定义一个强大的评估指标,而不需要预先提供完美的“黄金”轨迹。这个指标可以是基于规则的,甚至可以是另一个大模型,用于评分代理的表现。“一旦确定了这个指标,我们就让最先进的模型在代理工作流中探索,并保留得分最高的轨迹。” 方说。这个过程迅速引导出一组有用的初始记忆,使新的代理无需大量手动编程就能快速上手。

Memp 的应用

为了测试框架,研究团队在强大的大模型如 GPT-4、Claude 3.5 和 Qwen 2.5 上实现了 Memp,并在 ALFWorld 基准测试中的家庭杂务和 TravelPlanner 中的信息搜索等复杂任务上对其进行了评估。结果显示,构建和检索过程记忆使代理能够有效地提炼和重用其先前的经验。测试中,配备 Memp 的代理不仅提高了成功率,还变得更加高效。它们消除了无果的探索和试错,显著减少了完成任务所需的步骤数和消耗的令牌数。

使用过程记忆(右图)帮助代理用更少的步骤和更少的令牌完成任务(来源:arXiv)

对企业应用的一个重要发现是,过程记忆是可以转移的。在一个实验中,由强大的 GPT-4 生成的过程记忆被赋予了一个较小的模型 Qwen 2.5-14B。较小的模型性能显著提升,提高了成功率并减少了完成任务所需的步骤数。方表示,这之所以有效,是因为较小的模型通常能很好地处理简单的单步操作,但在长期规划和推理方面表现不佳。来自较大模型的过程记忆有效地填补了这一能力缺口。这表明,可以使用最先进的模型获取知识,然后部署在较小且更具成本效益的模型上,而不会失去这些经验带来的好处。

迈向真正自主的代理

通过为代理配备记忆更新机制,Memp 框架使代理能够在实时环境中持续构建和改进其过程知识。研究人员发现,这使代理具备了“持续、几乎线性的任务掌握能力”。然而,实现完全自主还需要克服另一个障碍:许多现实世界中的任务,如撰写研究报告,缺乏简单的成功信号。为了不断改进,代理需要知道它是否做得好。方认为未来的方向是使用大模型本身作为评判者。

“如今我们经常结合强大的模型和手工编写的规则来计算完成分数,”他指出,“这确实可行,但手工编写规则脆弱且难以推广。” 使用大模型作为评判者可以为代理提供复杂的监督反馈,使其在复杂和主观的任务中自我纠正。这将使整个学习循环更加可扩展和稳健,标志着向构建具有韧性和适应性的真正自主 AI 工作者迈出的关键一步。

(以上内容均由Ai生成)

你可能还想读

Snapchat免费开放“Imagine Lens”,AI图像生成全民可用

Snapchat免费开放“Imagine Lens”,AI图像生成全民可用

快速阅读: Snapchat宣布其AI工具“Imagine Lens”免费开放给所有用户,旨在对抗Meta AI和OpenAI的竞争,支持用户通过文本提示生成个性化图像,功能现已在美国上线,并计划扩展至更多国家。 Snapchat正式宣布, […]

发布时间:2025年10月23日
昆仑万维SkyReels全新版11月初上线,推动AI视频创作平民化

昆仑万维SkyReels全新版11月初上线,推动AI视频创作平民化

快速阅读: 昆仑万维AI视频产品SkyReels全新版本11月初上线,巩固其全球领先位置,推动全民视频创作。产品涵盖长视频生成、角色一致性等技术,已开源多个SOTA模型,促进AI视频创作平民化。 昆仑万维的AI视频产品SkyReels宣布, […]

发布时间:2025年10月23日
LiblibAI获1.3亿美元融资,成国内最大AI应用投资

LiblibAI获1.3亿美元融资,成国内最大AI应用投资

快速阅读: LiblibAI完成1.3亿美元B轮融资,由红杉中国等领投,成为国内AI应用领域最大融资。公司以多模态模型和创作社区为核心,已孵化超2000万AI创作者,计划加速全球化布局,推出2.0版“AI专业创作工作室”。 据Z Poten […]

发布时间:2025年10月23日
苹果MIND团队加速招聘,应对AI模型推理缺陷

苹果MIND团队加速招聘,应对AI模型推理缺陷

快速阅读: 苹果因最新研究揭示大型推理模型缺陷,正加快招聘AI领域高级人才。西雅图MIND团队招募专家,目标开发更准确高效的LLM和VLM架构,解决现有AI模型局限,推进下一代AI技术。 在苹果公司最近发布一项引发广泛讨论的研究,揭示当前大 […]

发布时间:2025年10月23日
Meta裁撤600人重塑AI架构,扎克伯格力挺新战略

Meta裁撤600人重塑AI架构,扎克伯格力挺新战略

快速阅读: Meta调整AI部门,计划裁员约600人,旨在减少官僚、加速决策。新成立的TBD Lab不受影响并将扩张,CEO扎克伯格支持AI主管Wang的策略。此次变动背景为内部关系紧张,部分科学家与管理层存分歧。 Meta公司正在对其人工 […]

发布时间:2025年10月23日
阿里“C计划”首发:夸克对话助手抢占AI市场

阿里“C计划”首发:夸克对话助手抢占AI市场

快速阅读: 阿里巴巴推出夸克App对话助手,采用Qwen最新闭源模型,集成问答、搜索、拍照搜题等功能,月活用户超1.5亿,主打25岁以下年轻市场,为阿里“C计划”首秀。 阿里巴巴“C计划”的 首款 产品近日正式揭晓,即夸克App上线的对话助 […]

发布时间:2025年10月23日
火山引擎发布Seedance1.0pro,首尾帧能力提升AI视频创作水平

火山引擎发布Seedance1.0pro,首尾帧能力提升AI视频创作水平

快速阅读: 火山引擎上线豆包视频生成模型1.0pro,提升AI视频创作的可控性和一致性,支持复杂场景和大幅运动的真实物理呈现,为企业和个人用户提供强大工具。 火山引擎正式上线了豆包视频生成模型1.0pro(Doubao-Seedance-1 […]

发布时间:2025年10月23日
生数科技Vidu Q2视频大模型API全面开放接入

生数科技Vidu Q2视频大模型API全面开放接入

快速阅读: 生数科技宣布Vidu Q2视频大模型API全面开放,该技术在广告、商品展示等领域展现独特价值,通过精细的表情生成技术提升视频的情感表现力,增强用户转化率。 近日,生数科技正式宣布 Vidu Q2参考生视频大模型 API 全面开放 […]

发布时间:2025年10月23日