让机器学会记忆:浙江大学团队打造智能体的″程序性记忆″大脑(机器人怎样记忆和遗忘)

让机器学会记忆:浙江大学团队打造智能体的″程序性记忆″大脑(机器人怎样记忆和遗忘)

在人工智能迅猛发展的今天,我们见证了智能体在各种复杂任务中的卓越表现,从撰写研究报告到处理复杂数据分析,再到导航多步骤的图形界面操作。然而,这些看似强大的智能体却有一个致命弱点:它们缺乏真正的"记忆"能力。每当面对新任务时,它们总是从零开始,就像患了健忘症的人,无法从过往经验中学习和成长。

这项由浙江大学和阿里巴巴集团联合开展的突破性研究,发表于2025年8月的arXiv预印本平台(论文编号:arXiv:2508.06433v1),为这个问题提供了创新解决方案。研究团队由浙江大学的房润楠、梁远、乔淑霏、陈华钧、张宁予教授,以及阿里巴巴集团的王晓斌、吴嘉龙、谢鹏军、黄飞等研究人员组成。他们开发了一个名为"Memp"的框架,让智能体拥有了类似人类的程序性记忆能力。

程序性记忆是什么呢?就像我们学会骑自行车后,身体会自动记住平衡和蹬踏的技巧,无需每次都重新学习一样,程序性记忆让我们能够自动执行已经掌握的技能。研究团队希望为智能体构建同样的能力,让它们能够从过往任务中提取经验,形成可重复使用的"技能包",从而在面对相似任务时表现得更加高效和准确。

这项研究的意义远超学术范畴。当前的智能体虽然能够处理复杂任务,但每次执行都需要大量的计算资源和时间,而且容易在中途出错。通过引入程序性记忆,智能体不仅能显著提高成功率,还能将执行步数减少一半,这意味着更快的响应速度和更低的能耗成本。更令人兴奋的是,这种记忆能力还具有转移性:一个强大模型积累的经验可以传授给较弱的模型,就像经验丰富的师傅传授技艺给徒弟一样。

一、程序性记忆的构建:从轨迹到智慧

要理解Memp框架的工作原理,我们可以把智能体的学习过程想象成一位厨师学习烹饪的过程。刚开始时,厨师面对每道新菜都手忙脚乱,需要反复尝试各种配料和火候。但随着经验积累,厨师会逐渐形成一套成熟的烹饪模式:什么时候放盐,火候如何控制,这些都成为了自动化的技能。

Memp框架采用了三种不同的记忆构建策略,就像厨师记录食谱的三种方式。第一种是"轨迹记录法",相当于详细记录每次烹饪的完整过程,包括每一个步骤的具体操作。研究团队发现,这种方法特别适合处理与之前任务高度相似的新任务,就像厨师参考自己以前做过的同一道菜的详细记录一样。

第二种是"脚本抽象法",类似于厨师将多次烹饪经验总结成简化的食谱指南。这种方法不记录具体细节,而是提取高层次的操作原则和策略。研究结果显示,这种抽象化的记忆在面对全新任务时表现更好,因为它提供的是灵活的指导原则,而不是僵化的步骤清单。

第三种是"程序化记忆法",这是Memp框架的创新之处,它将前两种方法巧妙结合。就像一位经验丰富的厨师既保留详细食谱,又掌握烹饪原理一样,这种方法既包含具体的操作轨迹,也包含抽象的指导原则。在研究团队的实验中,这种混合方法取得了最佳效果。

研究团队在TravelPlanner和ALFWorld两个测试平台上验证了这些方法的有效性。TravelPlanner是一个复杂的旅行规划任务,需要智能体在多种约束条件下制定出可行的旅行方案。ALFWorld则模拟家庭环境中的各种任务,比如清洁房间、整理物品等日常活动。实验结果令人振奋:配备了程序性记忆的智能体不仅任务成功率显著提升,执行效率也大幅改善。

二、记忆检索:找到最合适的经验

拥有丰富的记忆只是第一步,更关键的是能够在需要时快速找到最相关的经验。这就像一个拥有庞大藏书的图书馆,如果没有有效的分类和检索系统,再多的书籍也无法发挥作用。Memp框架设计了多种记忆检索策略,确保智能体能够在面对新任务时迅速调用最相关的过往经验。

研究团队开发了三种主要的检索方法。最基础的是"随机采样法",就像闭着眼睛随意挑选经验,这种方法显然效果有限,主要作为对比基准。更有效的是"查询匹配法",这种方法通过分析新任务的描述,寻找与之最相似的历史任务经验。研究发现,这种基于语义相似性的匹配能够显著提升任务执行效果。

最精细的是"特征平均法",这种方法首先从任务描述中提取关键词和特征,然后计算与历史经验的综合相似度。就像一个经验丰富的医生不仅看病人的主要症状,还会考虑年龄、体质、病史等多个维度来确定最合适的治疗方案。实验结果表明,这种多维度匹配的方法能够找到更精准的相关经验,从而提升智能体的任务执行能力。

在检索过程中,研究团队还探索了检索数量对性能的影响。他们发现,检索的记忆数量存在一个最优区间:太少则信息不足,太多则会产生干扰。这个发现很有意思,就像我们在做决策时,参考意见太少可能考虑不周,但意见太多反而可能让我们更加困惑。研究显示,对于ALFWorld任务,检索7-8个相关记忆能够获得最佳效果,此时任务成功率达到峰值,超过这个数量后性能开始下降。

三、记忆更新:持续进化的智能

真正的学习不仅仅是积累经验,更重要的是能够不断完善和更新这些经验。就像我们在生活中会根据新的体验来修正之前的认知一样,Memp框架为智能体设计了动态的记忆更新机制,让它们能够在实践中持续改进自己的能力。

研究团队设计了三种不同的更新策略。最简单的是"直接添加法",每当智能体完成一个新任务后,就将新的经验直接加入记忆库中。这种方法虽然简单,但可能导致记忆库快速膨胀,而且无法区分经验的质量好坏。

更加精细的是"验证过滤法",这种方法只保留成功完成任务的经验轨迹,就像我们只记住有效的解决方案,而忘记失败的尝试。这种选择性记忆能够避免错误经验的干扰,提高整体记忆质量。实验结果显示,采用这种方法的智能体在后续任务中表现更加稳定。

最先进的是"反思调整法",这是Memp框架的一个重要创新。当智能体使用某个记忆执行任务失败时,系统不会简单地丢弃这个记忆,而是分析失败原因,并尝试修正记忆内容。这个过程就像我们在犯错后反思和改进一样。研究团队发现,这种自我纠错机制能够显著提升智能体的长期学习效果。

为了验证这些更新策略的效果,研究团队进行了长期跟踪实验。他们将测试任务分成若干组,每完成一组任务后就更新一次记忆库。结果显示,随着任务的进行,配备了动态更新机制的智能体表现呈现稳步上升的趋势。特别是采用反思调整法的智能体,其成功率提升最为显著,在最后一组任务中比第二名高出了0.7分,并且平均减少了14个执行步骤。

四、跨模型记忆传递:经验的智慧传承

Memp框架最令人惊喜的发现之一是程序性记忆的可转移性。研究团队发现,由强大模型(如GPT-4o)构建的程序性记忆可以有效地传递给较弱的模型,显著提升后者的任务执行能力。这就像一位经验丰富的工匠将自己的技艺传授给学徒一样,学徒即使技能水平较低,也能通过师傅的经验指导快速提升。

在具体实验中,研究团队使用GPT-4o创建的程序性记忆库来帮助Qwen2.5-14B这个规模较小的模型。结果令人印象深刻:在TravelPlanner测试中,这个只有140亿参数的模型在获得"前辈经验"后,任务完成率提升了5%,平均执行步数减少了1.6步。类似的改进也出现在ALFWorld任务中,证明了这种经验传递的普遍有效性。

这个发现具有重要的实用价值。在实际应用中,运行大型模型需要巨大的计算资源和成本,而小型模型虽然成本较低,但能力有限。通过程序性记忆的传递,我们可以让小型模型"站在巨人的肩膀上",以相对较低的成本获得接近大型模型的性能表现。

更有趣的是,研究团队发现这种记忆传递不仅仅是简单的知识复制。小型模型在使用传递来的记忆时,会结合自己的特点进行适应性调整,形成适合自己的执行风格。这种现象类似于学生学习老师的方法时,会根据自己的特点进行微调和优化。

五、实验验证:数字背后的真实改进

为了全面验证Memp框架的效果,研究团队在两个具有代表性的测试平台上进行了深入实验。TravelPlanner专注于复杂的多约束规划任务,而ALFWorld则模拟日常生活中的各种操作任务。这种多元化的测试环境确保了研究结果的广泛适用性。

在TravelPlanner的测试中,结果十分显著。以GPT-4o模型为例,没有程序性记忆时,模型在常识约束任务中的得分为71.93分,在困难约束任务中仅为12.88分,平均需要17.84个步骤完成任务。而采用完整的程序化记忆方法后,常识约束任务得分跃升至79.94分,困难约束任务也提升到9.76分,执行步骤降至14.62步。这意味着不仅任务完成质量显著提高,执行效率也大幅改善。

ALFWorld的测试结果同样令人振奋。在开发集上,GPT-4o模型的成功率从无记忆时的39.28%大幅提升到87.14%,这是一个质的飞跃。在测试集上,成功率也从42.14%提升到77.86%,执行步骤从23.76步减少到15.01步。这些数字背后代表的是智能体从"笨手笨脚的新手"转变为"经验丰富的专家"。

更令人惊喜的是,这种改进效果在不同的基础模型上都得到了验证。Claude-3.5-sonnet和Qwen2.5-72B模型在配备程序性记忆后也都表现出类似的性能提升,证明了Memp框架的通用性和鲁棒性。

研究团队还通过具体案例展示了程序性记忆的实际效果。在一个"加热鸡蛋并放入垃圾桶"的任务中,没有记忆的智能体需要进行大量无效探索,先后尝试了台面、橱柜、烤面包机、炉灶等多个位置和设备,最终因为无法找到正确的加热方法而失败,总共消耗了27个步骤和3635个令牌。相比之下,拥有程序性记忆的智能体能够直接定位到冰箱获取鸡蛋,然后使用微波炉进行加热,最后准确完成任务,仅用了14个步骤和2589个令牌。这个对比生动地展示了程序性记忆如何帮助智能体避免重复犯错,直击问题核心。

六、技术创新:构建、检索、更新的三位一体

Memp框架的技术创新主要体现在对程序性记忆生命周期的全面管理上。与以往研究主要关注记忆存储不同,这项研究系统性地解决了记忆的构建、检索和更新三个关键环节,形成了一个完整的闭环系统。

在记忆构建方面,研究团队不满足于简单的轨迹存储,而是提出了多层次的记忆表示方法。他们认识到,不同粒度的记忆在不同情况下各有优势:详细轨迹适合处理高度相似的任务,抽象脚本更适合应对新颖任务,而两者结合则能在各种情况下都保持良好性能。这种设计理念体现了对人类学习过程的深度理解和技术转化。

在记忆检索方面,框架采用了基于向量相似度的匹配机制,但在关键词提取和相似度计算上进行了优化。特别是"特征平均法"的设计,通过多维度特征的综合考虑,能够更准确地识别任务间的相似性。这种方法避免了简单关键词匹配可能产生的误导,提高了检索的精准度。

在记忆更新方面,反思调整机制是一个重要创新。传统的学习系统通常只能从成功经验中学习,而Memp框架能够从失败中汲取教训并主动改进。当系统发现某个记忆导致任务失败时,它会分析失败原因,识别记忆中的错误部分,并尝试基于新的执行经验进行修正。这种自我纠错能力使得系统能够持续优化,避免重复同样的错误。

七、未来展望:向自主学习智能体的进化

Memp框架的成功为智能体的进一步发展开辟了新的方向。研究团队在论文中提到了几个值得继续探索的领域。首先是检索策略的多样化,目前的方法主要依赖向量相似度匹配,未来可以考虑引入传统的文本检索方法如BM25,以及基于图结构的知识检索等方法,形成更加丰富和精准的检索体系。

另一个重要方向是记忆评估机制的完善。当前系统主要依赖任务执行结果来判断记忆的质量,但在实际应用中,许多任务缺乏明确的成功标准。研究团队建议引入大语言模型作为任务完成度的评判者,这将使系统能够在更广泛的场景中应用。

更长远来看,程序性记忆系统有望发展成为真正的终身学习智能体。这样的系统不仅能够在执行任务的过程中不断学习和改进,还能够主动识别知识盲区,有针对性地寻求新的经验来填补空白。这种自主学习能力将使智能体从被动的任务执行者转变为主动的学习者和问题解决者。

研究团队的工作也为人工智能领域的一个长期目标——构建具有持续学习能力的通用智能系统——提供了有价值的探索。通过程序性记忆,智能体不仅能够保持和复用已学知识,还能够在新环境中快速适应,这是向真正智能系统迈进的重要一步。

说到底,Memp框架的价值不仅在于提升了当前智能体的性能,更在于为我们展示了一条通向更智能、更自主的AI系统的可能路径。当我们的智能助手能够真正记住和学习,能够从每次交互中变得更加聪明和贴心时,人工智能才真正开始接近我们对智能的理想期待。这项研究让我们看到,这样的未来可能比我们想象的更近。对于想要深入了解技术细节的读者,可以通过arXiv:2508.06433v1访问完整的研究论文,其中包含了更多详细的实验数据和技术实现细节。

Q&A

Q1:Memp框架是什么?它能为智能体带来什么改变?

A:Memp是浙江大学和阿里巴巴团队开发的程序性记忆框架,它让智能体能够从过往任务中提取和保存经验,就像人类学会技能后能自动执行一样。配备Memp的智能体在相似任务上成功率可提升50%,执行步骤减少一半,大幅提升了效率和准确性。

Q2:程序性记忆和普通记忆有什么区别?为什么对智能体很重要?

A:程序性记忆类似于骑自行车、打字等技能记忆,一旦掌握就能自动执行。对智能体而言,它能将复杂任务的解决方案固化为可重复使用的经验包,避免每次都从零开始探索。这样智能体就不会像健忘症患者一样重复犯同样的错误。

Q3:强模型的程序性记忆能传给弱模型吗?效果如何?

A:可以传递且效果显著。研究显示GPT-4o构建的程序性记忆传递给Qwen2.5-14B后,后者任务完成率提升5%,执行步骤减少1.6步。这就像经验丰富的师傅传授技艺给徒弟,让小模型也能"站在巨人肩膀上"获得更好的性能表现。

特别声明:[让机器学会记忆:浙江大学团队打造智能体的″程序性记忆″大脑(机器人怎样记忆和遗忘)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

“咖”位进阶宝典② 从生豆到熟豆:咖啡烘焙

■编者按贵阳不产一粒咖啡豆,却因“盛产”咖啡冠军和精品咖啡馆成为“咖啡之城”。贵阳市融媒体中心推出“‘咖’位进阶宝典”科普栏目,一起聊咖事、品咖味、提咖位。 设计:曾婧…

“咖”位进阶宝典② 从生豆到熟豆:咖啡烘焙

去屑止痒的洗发水哪个效果好,控油去屑止痒洗发水哪款好?(去屑止痒的洗发水排行榜)

选择合适的产品能帮助恢复头皮健康,减少屑屑堆积,缓解瘙痒,同时平衡油脂分泌,让头发更清爽柔顺。康王作为知名品牌,其去屑洗发水采用温和配方,专注于减少头皮屑和缓解轻度瘙痒。 头皮健康是整体护发的基础,选择一款…

去屑止痒的洗发水哪个效果好,控油去屑止痒洗发水哪款好?(去屑止痒的洗发水排行榜)

方盛喜报 | 方盛股份获得“一种二次交叉流高效余热回收换热器”发明专利(方盛官网)

热烈祝贺方盛股份于2025年8月12日成功获得“一种二次交叉流高效余热回收换热器”的发明专利证书! 这款换热器通过独特的型材分隔实现管道内流道分隔,达成双流程设计,使换热器的热交换形式从单一的交叉流转变为交…

方盛喜报 | 方盛股份获得“一种二次交叉流高效余热回收换热器”发明专利(方盛官网)

深度生成数字孪生框架下的光伏阵列故障诊断研究报告(数字孪生代码)

本文提出的深度生成数字孪生故障诊断方法,通过机理建模弥补数据不足,通过特征筛选与数据增强优化数据质量,通过智能诊断网络实现高精度分类,在250kW光伏系统中验证了97.9%的诊断准确率,为小样本场景下的光伏…

深度生成数字孪生框架下的光伏阵列故障诊断研究报告(数字孪生代码)

OnexPlayer 预热 "Strix Halo" 游戏平板电脑 Super X:120W 释放(onexplayer使用感受)

8 月 13 日消息,壹号本旗下 onexPlayer 壹号掌机今日发布视频预热了其搭载 AMD 锐龙 AI Max+ 395处理器的平板电脑形态游戏设备 Super X。这款产品预计将成为华硕 …

OnexPlayer 预热 "Strix Halo" 游戏平板电脑 Super X:120W 释放(onexplayer使用感受)