引入嵌套学习（Nested Learning）：一种用于持续学习的全新机器学习范式

作者：Google Research | 日期：2025年11月7日

我们提出了嵌套学习（Nested Learning），这是一种全新的机器学习方法，它将模型视为一组更小的、相互嵌套的优化问题，每个问题都有其自身的内部工作流。通过这种方式，我们可以缓解，甚至在某些情况下完全避免“灾难性遗忘”（catastrophic forgetting）这一问题——即模型在学习新任务时会牺牲对旧任务的掌握能力。

在过去十年中，机器学习（ML）取得了令人难以置信的进展，这主要得益于强大的神经网络架构以及用于训练它们的算法。然而，尽管大语言模型（LLMs）已经取得了显著成功，一些基础性挑战仍然存在，尤其是持续学习（continual learning） 相关的问题，即模型是否能够随着时间推移不断获取新的知识和技能，同时又不会遗忘已有的知识。

在人类自我改进和持续学习方面，大脑是无可争议的黄金标准。大脑通过神经可塑性（neuroplasticity）进行适应——这是一种能够根据新经验、记忆和学习而改变自身结构的非凡能力。如果没有这种能力，人类将被限制在即时上下文中（类似于顺行性遗忘症）。当前的大语言模型也存在类似的局限：它们的知识要么受限于输入窗口中的即时上下文，要么被固定在预训练阶段所学到的静态信息中。

一种看似简单的方法是不断用新数据更新模型参数，但这往往会导致所谓的灾难性遗忘（Catastrophic Forgetting，CF），即在学习新任务的同时，模型在旧任务上的性能明显下降。传统上，研究人员通过对模型架构进行修改，或通过改进优化算法来应对这一问题。然而，长期以来，我们一直将模型架构（网络结构）与优化算法（训练规则）视为两个彼此独立的组成部分，这种割裂阻碍了我们构建一个真正统一、高效的学习系统。

在我们发表于 NeurIPS 2025 的论文《Nested Learning: The Illusion of Deep Learning Architectures》中，我们提出了嵌套学习，用以弥合这一鸿沟。嵌套学习不再将单一机器学习模型视为一个连续的过程，而是将其看作一个由多个相互连接、可同时优化的多层级学习问题所组成的系统。我们认为，模型架构与训练规则（即优化算法）在本质上是同一类概念，它们只是处在不同的“优化层级”，每一层都有其自身的信息内部流动（即“上下文流”）和更新速率。通过识别这种内在结构，嵌套学习为设计更强大的人工智能系统提供了一个此前不可见的新维度，使我们能够构建具有更深计算深度的学习组件，从而在根本上缓解灾难性遗忘等问题。

我们通过一种概念验证的、自我修改的架构对嵌套学习进行了测试和验证，该架构被我们命名为 Hope。实验结果表明，Hope 在语言建模方面表现更优，并且在长上下文记忆管理上优于现有的最先进模型。

嵌套学习范式

嵌套学习揭示了一个事实：一个复杂的机器学习模型实际上是由一组彼此一致、相互连接的优化问题组成的，这些问题要么彼此嵌套，要么并行运行。每一个内部问题都有其自身的上下文流，即它试图从中学习的一组特定信息。

这种视角意味着，现有的深度学习方法本质上是在对其内部的上下文流进行压缩。更重要的是，嵌套学习揭示了一个用于模型设计的全新维度，使我们能够构建具有更深计算深度的学习组件。

为了说明这一范式，我们引入了联想记忆（associative memory） 这一概念——即根据一个事物联想到另一个事物的能力（例如，看到一张脸就能想起对应的名字）。

我们展示了训练过程本身，尤其是反向传播（backpropagation） 过程，可以被建模为一种联想记忆。模型学习的是将给定数据点映射到其局部误差值，而这个误差值反映了该数据点有多“令人惊讶”或出乎预期。

类似地，基于以往研究（例如 Miras），一些关键的架构组件，比如 Transformer 中的注意力机制，也可以被形式化为简单的联想记忆模块，它们学习的是序列中不同 token 之间的映射关系。

人脑中统一且可复用的结构，以及跨多个时间尺度的更新机制，是人类实现持续学习的关键因素。嵌套学习允许模型中的每个组件都以多时间尺度进行更新，并揭示了像 Transformer 和记忆模块这样的知名架构，本质上都是以不同更新频率运行的线性层。

通过定义更新频率（即每个组件的权重被调整的频率），我们可以将这些相互连接的优化问题排序为不同的“层级”。这一有序结构构成了嵌套学习范式的核心。

将嵌套学习付诸实践

嵌套学习视角为改进现有算法和架构提供了系统化、可推导的方法。

深度优化器

由于嵌套学习将优化器（例如基于动量的优化器）视为联想记忆模块，因此我们可以将联想记忆中的原理应用到优化器设计中。我们观察到，许多标准优化器依赖于简单的点积相似度度量，而这种更新方式并未考虑不同数据样本之间的关系。通过将优化器的底层目标函数替换为更标准的损失度量（例如 L2 回归损失），我们推导出了动量等核心概念的新形式，使其对噪声数据和不完美数据更加鲁棒。

连续记忆系统

在标准的 Transformer 中，序列模型本身充当短期记忆，用于保存即时上下文，而前馈神经网络则充当长期记忆，用于存储预训练阶段获得的知识。嵌套学习将这一概念扩展为我们称之为连续记忆系统（Continuum Memory System，CMS） 的结构，其中记忆被视为一系列以不同更新频率运行的模块所组成的连续谱。这种结构为持续学习提供了更丰富、更高效的记忆机制。

Hope：一种具有连续记忆的自我修改架构

作为概念验证，我们基于嵌套学习原理设计了 Hope，它是 Titans 架构的一种变体。Titans 是一种长时记忆模块，其特点是根据“惊讶度”对记忆进行优先级排序。尽管 Titans 在记忆管理方面表现出色，但其参数更新层级仅有两层，因此只能实现一阶的上下文内学习。Hope 则是一种自我修改的循环架构，能够利用无界层级的上下文内学习，并通过引入 CMS 模块扩展到更大的上下文窗口。它本质上可以通过一种自指过程来优化自身的记忆，从而形成一个具有无限循环学习层级的架构。