通过元学习Agent记忆设计学习如何持续学习 | Yiming Xiong

作者：Yiming Xiong, Shengran Hu, Jeff Clune | 日期：2026年2月10日

这个项目介绍了 ALMA（为自主系统自动元学习的记忆设计），这是一个元学习记忆设计的框架，用以替代手工设计的记忆设计，从而最小化人力投入，并使自主系统能够在各个不同领域中持续学习。我们的方法采用一个元代理，以开放的方式搜索表示为可执行代码的记忆设计，理论上允许发现任意记忆设计，包括数据库模式及其检索和更新机制。

ALMA 的开放探索过程

元代理从存档中采样先前探索的记忆设计，存档中存储了所有探索的记忆设计及其评估日志。然后元代理反思采样的记忆设计以生成新的想法和计划，这些想法和计划在代码中实现。新的设计随后被验证和评估，产生的日志被添加回存档以指导未来的采样。

学习过程示例

我们在《Baba Is AI》中包含了一个关于前六种记忆设计的示例学习过程。完整的学习过程可以在我们的论文中找到。记忆设计档案树展示了在开放式探索过程中，如何存档和结构化已发现的记忆设计。ALMA 在不断增长的、基于先前发现的档案中逐步发现新的记忆设计。

https://arxiv.org/abs/2407.13729

结果

学习到的记忆设计在所有基准测试中始终优于所有当前最先进的人工设计记忆基线。这适用于由 GPT-5-nano 和 GPT-5-mini 驱动的自主系统，表明发现的记忆设计可以更有效地存储和重用过去的经验，以支持在测试时自主系统的持续学习。此外，随着基础模型能力的增强，性能提升更加显著，这表明我们的学习记忆设计可以泛化到不同的基础模型，并在底层自主系统变得更强大时提供更强的支持。总体而言，这些结果表明改进是稳健的，并非特定于某个模型，突出了我们方法的可扩展性和通用性。

不同基准测试中最佳学习记忆设计的可视化

记忆设计中每个子模块可能有一个专用数据库或没有，这取决于其功能，箭头显示了记忆设计中的检索和更新工作流程。每个子模块的名称和解释分别由元代理生成和手动总结。

学习到的记忆设计表明 ALMA 发现了适应不同任务需求的有效的记忆结构。对于具有明确对象交互目标的游戏（例如，ALFWorld 和 TextWorld），学习到的记忆设计倾向于存储细粒度知识，如对象之间的空间关系和房间布局。相比之下，对于需要更复杂推理的任务（例如，Baba Is AI 和 MiniHack），记忆设计倾向于特定领域的抽象策略，包括策略库和计划合成。这种模式表明 ALMA 自动将记忆设计专门化为每个领域的需求。