程序记忆降低AI代理成本与复杂度
快速阅读: 浙江大学和阿里巴巴开发Memp技术,为大型语言模型提供动态程序记忆,提高处理复杂任务的效率和成功率,减少重复探索,实现跨任务知识迁移。
浙江大学和阿里巴巴集团开发了一种新技术,赋予大型语言模型(LLM)代理动态记忆,使它们在处理复杂任务时更加高效和有效。这项名为Memp的技术为代理提供了“程序记忆”,这种记忆会随着经验的积累而不断更新,类似于人类通过实践学习的方式。
Memp创建了一个终身学习框架,使代理在面对新任务时不必每次都从头开始。相反,它们会在遇到新情况时逐渐变得更好、更高效,这是实现可靠企业自动化的关键需求。
研究人员指出,尽管许多复杂任务表面不同,但它们在深层次上具有共同的结构特征。因此,代理应能够从过去的成功和失败中提取并重用经验,而不是每次都需要重新学习这些模式。这需要一种特定的“程序记忆”,即人类负责打字或骑自行车等技能的长期记忆,这些技能会随着练习而变得自动。
当前的代理系统通常缺乏这种能力。它们的程序知识通常由开发人员手工编写,存储在僵硬的提示模板中或嵌入模型参数中,这些参数昂贵且难以更新。即使现有的增强记忆框架也只提供粗略的抽象,并不能充分解决如何构建、索引、纠正和最终修剪代理生命周期中的技能的问题。
因此,研究者在论文中提到,“没有原则性方法来量化代理如何高效地发展其程序库,也无法保证新体验能改善而非削弱性能。”
Memp是一个与任务无关的框架,将程序记忆视为一个核心组件进行优化。它包括三个关键阶段,形成一个持续循环:构建、检索和更新记忆。记忆从代理过去的经历或“轨迹”中构建。研究人员探索了以逐字步骤或提炼成更高层次脚本的形式存储这些记忆。在检索过程中,代理在接收到新任务时搜索最相关的过去经验。团队尝试了不同的方法,如向量搜索,以匹配新任务描述与过去查询,或提取关键词找到最佳匹配。
最关键的部分是更新机制。Memp引入了多种策略,确保代理的记忆随时间演变。随着代理完成更多任务,其记忆可以通过简单添加新经验、筛选成功结果或最有效地反思失败来纠正和修订原始记忆。
Memp专注于动态、演化的记忆,处于一个旨在使AI代理更适合长期任务的研究领域。这项工作与其他努力相呼应,如Mem0,它将长时间对话中的关键信息整合为结构化事实和知识图谱,以确保一致性。类似地,A-MEM使代理能够自主创建并链接“记忆笔记”,形成复杂的知识结构。
然而,共同作者方润南强调了Memp与其他框架之间的关键区别。“Mem0和A-MEM是出色的工作……但它们侧重于记住单个轨迹或对话中的显著内容,”方润南在接受VentureBeat采访时说。它们帮助代理记住“发生了什么”。相比之下,“Memp针对跨轨迹的程序记忆。”它关注可以跨类似任务推广的“如何做”知识,防止代理每次重新探索。
方表示:“通过将过去的成功工作流程提炼为可重用的过程先验,Memp 提高了成功率并缩短了步骤。” 他补充说:“关键是我们还引入了一种更新机制,使这种过程记忆能够不断改进——毕竟,熟能生巧。”
解决“冷启动”问题
虽然从过去轨迹中学习的概念非常强大,但它提出了一个实际问题:当没有完美的例子可供学习时,代理如何建立其初始记忆?研究人员以务实的方法解决了这个“冷启动”问题。方解释说,开发人员可以首先定义一个强大的评估指标,而不需要预先提供完美的“黄金”轨迹。这个指标可以是基于规则的,甚至可以是另一个大模型,用于评分代理的表现。“一旦确定了这个指标,我们就让最先进的模型在代理工作流中探索,并保留得分最高的轨迹。” 方说。这个过程迅速引导出一组有用的初始记忆,使新的代理无需大量手动编程就能快速上手。
Memp 的应用
为了测试框架,研究团队在强大的大模型如 GPT-4、Claude 3.5 和 Qwen 2.5 上实现了 Memp,并在 ALFWorld 基准测试中的家庭杂务和 TravelPlanner 中的信息搜索等复杂任务上对其进行了评估。结果显示,构建和检索过程记忆使代理能够有效地提炼和重用其先前的经验。测试中,配备 Memp 的代理不仅提高了成功率,还变得更加高效。它们消除了无果的探索和试错,显著减少了完成任务所需的步骤数和消耗的令牌数。
使用过程记忆(右图)帮助代理用更少的步骤和更少的令牌完成任务(来源:arXiv)
对企业应用的一个重要发现是,过程记忆是可以转移的。在一个实验中,由强大的 GPT-4 生成的过程记忆被赋予了一个较小的模型 Qwen 2.5-14B。较小的模型性能显著提升,提高了成功率并减少了完成任务所需的步骤数。方表示,这之所以有效,是因为较小的模型通常能很好地处理简单的单步操作,但在长期规划和推理方面表现不佳。来自较大模型的过程记忆有效地填补了这一能力缺口。这表明,可以使用最先进的模型获取知识,然后部署在较小且更具成本效益的模型上,而不会失去这些经验带来的好处。
迈向真正自主的代理
通过为代理配备记忆更新机制,Memp 框架使代理能够在实时环境中持续构建和改进其过程知识。研究人员发现,这使代理具备了“持续、几乎线性的任务掌握能力”。然而,实现完全自主还需要克服另一个障碍:许多现实世界中的任务,如撰写研究报告,缺乏简单的成功信号。为了不断改进,代理需要知道它是否做得好。方认为未来的方向是使用大模型本身作为评判者。
“如今我们经常结合强大的模型和手工编写的规则来计算完成分数,”他指出,“这确实可行,但手工编写规则脆弱且难以推广。” 使用大模型作为评判者可以为代理提供复杂的监督反馈,使其在复杂和主观的任务中自我纠正。这将使整个学习循环更加可扩展和稳健,标志着向构建具有韧性和适应性的真正自主 AI 工作者迈出的关键一步。
(以上内容均由Ai生成)