DeepSeek 抛弃“死算”，给大模型装上了“外挂硬盘”

想象一下，你正在参加一场闭卷考试。你是个绝世天才，大脑神经元极其活跃，逻辑推理能力满分。但有一个尴尬的问题：你没有长期记忆。

每次题目问到“法国的首都是哪里”，你都必须动用全身的脑细胞，从历史地理的底层逻辑开始推导，最后得出结论是巴黎。虽然你算得很快，但这简直是在用高射炮打蚊子。在 AI 领域，目前的顶尖模型（如 Transformer 架构）就像这个天才，它们极其擅长计算，但在“知识检索”这件事上却笨得惊人。它们在用宝贵的计算资源去模拟本该由记忆完成的工作。

DeepSeek 今天最新发布的论文，试图打破这个僵局。他们给大模型装上了一个叫【Engram：一种让模型能通过“查字典”而非“搞计算”来获取知识的记忆模块】的插件。这个改动不仅让模型变得更博学，更令人意外的是，它居然让模型的逻辑推理能力也得到了显著提升。

第一章：这篇论文到底在解决什么问题

现在的大语言模型，本质上都是“算力狂魔”。当你问它一个问题时，它内部成千上万个神经元会疯狂闪烁，进行数以亿计的乘法运算。

这种方式在处理复杂逻辑时很有效，但在处理常识性知识时却非常低效。打个比方，这就好比你为了查一个单词的拼写，不肯去翻词典，非要从拉丁语词根开始分析它的演变过程。

这篇论文的核心目标就是：给大模型增加一个“快捷查询”的维度。

作者认为，大模型的智力应该由两部分组成：一部分是“脑子”（负责思考和推理的神经元），另一部分是“记忆库”（负责存储和快速检索知识的静态模块）。论文提出的 Engram 技术，就是要把这部分被浪费在简单检索上的算力释放出来，让模型能用极低的代价“想起”它看过的东西。

如果说以前的模型是在脑子里现场写书，那么搭载了 Engram 的模型就是一边思考一边翻阅身边的百科全书。

第二章：以前的主流做法为什么不够好

在 Engram 出现之前，业界提升模型容量的主流方案是【MoE：全称 Mixture-of-Experts，混合专家模型，即在大脑里雇佣一群专家，每次只叫其中几个出来干活】。

MoE 虽然比传统模型聪明，但它依然没有跳出“纯计算”的怪圈。

想象一下，你经营着一家咨询公司。MoE 的做法是：你有 100 个咨询顾问，根据客户的问题，你每次只挑 2 个最合适的顾问来回答。这确实省了工资，但问题在于，这 2 个顾问哪怕回答“ 1+1 等于几”这种弱智问题，也得按小时收费，而且他们回答之前还得在大脑里过一遍微积分。

这种做法的痛点在于：计算本身就是贵的。无论你如何切换专家，只要涉及到神经元的激活，能源和时间的开销就少不了。

更糟糕的是，很多知识是“死”的，比如某个代码库的函数名，或者某个历史人物的生日。用极其昂贵的神经元去死记硬背这些东西，不仅占地方，还容易记串行。这就是为什么大模型经常会一本正经地胡说八道。

第三章：作者的新方法：核心想法是什么

DeepSeek 的作者们换了个思路：既然有些东西只需要“查一下”就行，那我们干脆给模型配一个巨大的、可以按需查找的“活页夹”。

一句话总结这个方法：通过把传统的“ N-gram 词组统计”和现代的大模型结合，创造出一个可以随取随用的高扩展性记忆模块。

具体拆解开来，这个方法有三根支柱：

第一，采用【N-gram：一种统计学方法，通过前几个词来预测下一个词可能是什么】作为索引。这就像是你在手机输入法里输入“吃”，它会自动联想出“饭”一样简单直接。

第二，实现O(1)复杂度的查找。这个数学术语听起来吓人，其实类比一下很简单：无论你的书架上有 10 本书还是 10 万本书，你只要看一眼目录就能瞬间找到那一页，而不需要从第一本开始翻。

第三，让记忆和大脑“共同进化”。这个记忆库不是死板的，它在模型训练的过程中会不断优化自己的存储内容，确保存进去的都是大脑最需要的“干货”。

第四章：关键组件拆解：它是如何工作的

要理解 Engram 怎么工作，我们可以把它拆成三个零件：

1. 多头条件记忆组件（mHC）
作用：它是模型派出的“图书管理员”。
类比：就像你在图书馆想借书，你不需要自己钻进书架，而是把需求告诉管理员，他同时伸出八只手（多头），从不同角度帮你寻找最匹配的知识片段。
澄清：它不是真的在搜索互联网，而是在搜索模型在训练阶段存进“外挂硬盘”里的海量数据。
2. Engram 嵌入向量
作用：它是存放在“外挂硬盘”里的知识卡片。
类比：就像是每个知识点都被浓缩成了一张带编号的贴纸。当管理员找到它时，这张贴纸会直接贴在模型的思维导图上，参与后续的思考。
澄清：这些贴纸并不是人类能直接读懂的文字，而是模型能理解的数字密码。
3. 稀疏分配比例
作用：它决定了模型该花多少精力去“思考”，花多少精力去“查资料”。
类比：就像公司预算员，他要算清楚是多请几个专家（MoE）划算，还是多买几台服务器存资料（Engram）划算。
澄清：并不是记忆库越大越好，论文发现这两者之间有一个微妙的平衡点，就像天平的两端。