让 AI 真正拥有“长时记忆”的开端

为什么谷歌要重新设计序列模型的“记忆系统”?

在大模型时代,模型的“记忆”问题正变得越来越重要。

我们已经能让模型写长文、读文档,但一个根本性的限制始终存在:模型无法在极长序列中保持稳定、细致、可深入推理的长期记忆能力。

Transformer 带来了强大的注意力机制,但随着序列长度增长,计算成本会以平方级上升。

而近年来兴起的高效 RNN 与状态空间模型(SSM),虽然推理速度快、可扩展性强,却需要依赖一个固定大小的状态向量来“压缩过去”,难以承载海量信息。

在两篇最新论文中,谷歌提出了两个概念:

  • • Titans:一种使用深度神经网络作为长期记忆的全新架构;
  • • MIRAS:一个从理论上重新定义序列模型“记忆行为”的框架。

两者共同指向一个核心命题:

让 AI 在推理时能够主动、实时地更新自身记忆,不依赖离线训练,不依赖固定压缩状态,从而真正拥有可持续的长期知识。


一、长序列瓶颈:Transformer 不擅长长期记忆

Transformer 的核心在于 Attention,它让模型能自由访问历史信息。但注意力计算的成本与序列长度 L 的平方(O(L²)) 成正比,这让模型很难处理数十万、数百万级别的上下文。

为解决这个问题,人们尝试:

  • • 高效线性 RNN
  • • SSM(如 Mamba-2 等)

它们的共同特点是:

  • • O(L) 的推理成本,足够快;
  • • 但只能用一个固定大小的向量或矩阵来保存所有历史信息。

长期来看,这种“小容器记忆”必然面临瓶颈:

序列越来越长,而记忆大小不变。
信息被迫压缩,细节必然丢失。


二、Titans:将“记忆”从向量升级为“神经网络”

Titans 引入的关键创新,是把长期记忆从传统 RNN 中一个固定的 hidden state 彻底升级为一个深度多层感知机(MLP)本身

也就是说:

Titans 的记忆不是一个“记忆向量”,
而是一整个可更新的 深度网络参数集

这种设计带来几个重要变化:

1. 记忆容量随网络深度提升,远超传统结构

固定向量容量有限,而深度网络可以表达复杂结构关系,更适合总结长序列信息。

2. 模型可以实时写入新的长期知识

Titans 的长期记忆模块可以在推理过程中更新,而不需要重新训练。

3. 短期与长期记忆分工明确

  • • Attention 负责处理短期、精确的局部关系;
  • • 长期记忆网络负责总结、抽象、跨段落逻辑。

这让 Titans 的记忆系统更接近人类的“工作记忆 + 长期记忆”结构。


三、如何判断“哪些信息值得写入长期记忆”?

人类不会记住所有细节,我们记住的往往是违背预期的事情。Titans 模型借鉴了心理学中这一现象,引入:

惊讶度(Surprise Metric)

其数学形式来源于模型内部的梯度变化:

  • • 低惊讶:模型已能预测到的内容 → 不必写入长期记忆
  • • 高惊讶:突破预期、重要或异常的信息 → 优先写入

Titans 会在推理过程中监控惊讶度,从而决定:

  • • 何时更新长期记忆
  • • 记什么
  • • 忽略什么

为了避免记忆混乱,Titans 还加入:

1. 动量机制(Momentum)

不仅看当前惊讶值,还会参考最近一段时间的连续惊讶变化,让模型捕捉成片的新信息,而不是碎片化的点。

2. 遗忘机制(Forgetting)

通过一种自适应的 weight decay,对长期不再相关的内容自然衰减,使记忆保持容量健康、结构清晰。


四、MIRAS:重新定义“序列模型 = 关联记忆系统”

MIRAS 是 Titans 背后的理论基础,它提出一个新的视角:

所有序列模型 —— 无论 Transformer、RNN、SSM —— 本质上都是试图学习一种“可查询的关联记忆”。

在 MIRAS 中,一个序列模型由四个维度决定:

  1. 1. 记忆结构:是向量、矩阵,还是深度网络?
  2. 2. 学习偏置(Attentional Bias):模型优化哪些目标?
  3. 3. 保留门(Retention Gate):如何平衡新旧记忆?
  4. 4. 记忆算法(Memory Algorithm):采用何种优化策略更新记忆?

MIRAS 的优势在于统一解释了不同架构之间的差异

例如:

  • • Transformer 的注意力行为可被视为特定的 bias + regularization
  • • RNN 的遗忘门是 retention gate 的一种实现形式
  • • Titans 的深度记忆是一种更高维的 memory architecture

这让我们可以用同一套语言来描述不同模型的记忆行为。


五、突破 MSE:非欧式几何目标的探索空间

现有序列模型几乎全部依赖:

  • • MSE(均方误差)
  • • dot-product(点积相似度)

它们属于欧式几何范畴,简单但容易受异常点影响。

基于 MIRAS,谷歌提出三种“不依赖注意力”的新模型:

  • • YAAD:采用 Huber Loss,对噪声更鲁棒
  • • MONETA:引入严格的广义范数,提高记忆稳定性
  • • MEMORA:把记忆约束为概率分布,保证更新过程可控

它们代表了未来研究方向:
更丰富的目标函数,更灵活的记忆几何结构。


六、实验结果:Titans 在长序列任务上全面领先

谷歌在多项基准任务上验证了 Titans 与 MIRAS 变体:

1. 语言建模(C4、WikiText)

  • • 长期记忆越深,模型困惑度越低
  • • 大幅优于 Mamba-2、Gated DeltaNet 等高效模型

2. 零样本推理(HellaSwag、PIQA)

Titans 与 MIRAS 系列表现均优于同尺度的 baseline。

3. 极长上下文(BABILong Benchmark)

这是最关键的部分。

在需要处理 200 万 token 级别上下文的极端任务中:

Titans 甚至超过了 GPT-4 级别的大模型(参数量远大于 Titans)。

同时保持线性推理速度,性能随序列长度持续稳定。


七、为什么这项研究意义重大?

Titans 与 MIRAS 的提出,说明:

  1. 1. 大模型未来的方向不是“只变大”,而是“变得更能记忆”。
  2. 2. 序列模型的核心竞争力正在从注意力扩展到“高级记忆结构设计”。
  3. 3. 推理阶段在线更新记忆,将成为下一代 AI 能力的关键基础设施。

更远的意义在于:

AI 将不再是“每次都从零开始预测”的系统,
而是一个能够随着使用而不断调整内部知识的学习体。

这将改变搜索、对话系统、企业知识库、科学计算等广泛场景的能力边界。


结语

Titans 提供了一个全新的记忆架构,MIRAS 提供了统一的理论框架。
两者共同推动了序列模型从“短暂记忆机器”向“具有持续学习能力的知识系统”演化。

从高效 RNN 到 Transformer,从注意力机制到深度记忆网络,
这次谷歌的工作可能标志着大模型迈向 “长时知识时代” 的一个关键节点。


如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^


相关好文推荐:

一次关于未来智能的深度对话

假如科学被做成了自动售卖机

聊一聊OpenAI新发布的Apps SDK
苦涩的教训
特朗普签署AI行动计划,AI全球赛跑加速,中国准备好了吗?
Flux Context Dev:一句话玩转AI修图,免费开源神器!
马斯克Neuralink最新发布会!大脑直接操控电脑,人类正式迈入“意识互联”时代!

0条留言

留言