通过元学习Agent记忆设计学习如何持续学习 | Yiming Xiong
作者:Yiming Xiong, Shengran Hu, Jeff Clune | 日期:2026年2月10日
这个项目介绍了 ALMA(为自主系统自动元学习的记忆设计),这是一个元学习记忆设计的框架,用以替代手工设计的记忆设计,从而最小化人力投入,并使自主系统能够在各个不同领域中持续学习。我们的方法采用一个元代理,以开放的方式搜索表示为可执行代码的记忆设计,理论上允许发现任意记忆设计,包括数据库模式及其检索和更新机制。
元代理从存档中采样先前探索的记忆设计,存档中存储了所有探索的记忆设计及其评估日志。然后元代理反思采样的记忆设计以生成新的想法和计划,这些想法和计划在代码中实现。新的设计随后被验证和评估,产生的日志被添加回存档以指导未来的采样。
学习过程示例
我们在《Baba Is AI》中包含了一个关于前六种记忆设计的示例学习过程。完整的学习过程可以在我们的论文中找到。记忆设计档案树展示了在开放式探索过程中,如何存档和结构化已发现的记忆设计。ALMA 在不断增长的、基于先前发现的档案中逐步发现新的记忆设计。
https://arxiv.org/abs/2407.13729
结果
学习到的记忆设计在所有基准测试中始终优于所有当前最先进的人工设计记忆基线。这适用于由 GPT-5-nano 和 GPT-5-mini 驱动的自主系统,表明发现的记忆设计可以更有效地存储和重用过去的经验,以支持在测试时自主系统的持续学习。此外,随着基础模型能力的增强,性能提升更加显著,这表明我们的学习记忆设计可以泛化到不同的基础模型,并在底层自主系统变得更强大时提供更强的支持。总体而言,这些结果表明改进是稳健的,并非特定于某个模型,突出了我们方法的可扩展性和通用性。
记忆设计中每个子模块可能有一个专用数据库或没有,这取决于其功能,箭头显示了记忆设计中的检索和更新工作流程。每个子模块的名称和解释分别由元代理生成和手动总结。
学习到的记忆设计表明 ALMA 发现了适应不同任务需求的有效的记忆结构。对于具有明确对象交互目标的游戏(例如,ALFWorld 和 TextWorld),学习到的记忆设计倾向于存储细粒度知识,如对象之间的空间关系和房间布局。相比之下,对于需要更复杂推理的任务(例如,Baba Is AI 和 MiniHack),记忆设计倾向于特定领域的抽象策略,包括策略库和计划合成。这种模式表明 ALMA 自动将记忆设计专门化为每个领域的需求。
与手动记忆设计相比,学习到的记忆设计在有限数据下更快地实现更高性能,并且随着更多轨迹的提供,扩展性更好,展示了更高的样本效率和更强的可扩展性。学习到的记忆设计还优于所有人工设计的基线,并在任务分布变化下表现出更有效的适应能力。
https://yimingxiong.me/alma
如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^
相关好文推荐:
超越 RAG 以实现智能体记忆:通过解耦和聚合进行检索 | ICML
你的工作不会消失,它只是不断在你身边逐渐萎缩 | Jan Tegze
一个使用 OpenRouter 的 1 万亿令牌实证研究 | OpenRouter AI
一个月内把编码主力交给 Agent 的真实体验 | karpathy
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(三)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(二)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(一)| Sebastian Raschka
递归语言模型(Recursive Language Models) | Alex Zhang

0条留言