DeepSeek 抛弃“死算”,给大模型装上了“外挂硬盘”

想象一下,你正在参加一场闭卷考试。你是个绝世天才,大脑神经元极其活跃,逻辑推理能力满分。但有一个尴尬的问题:你没有长期记忆。

每次题目问到“法国的首都是哪里”,你都必须动用全身的脑细胞,从历史地理的底层逻辑开始推导,最后得出结论是巴黎。虽然你算得很快,但这简直是在用高射炮打蚊子。在 AI 领域,目前的顶尖模型(如 Transformer 架构)就像这个天才,它们极其擅长计算,但在“知识检索”这件事上却笨得惊人。它们在用宝贵的计算资源去模拟本该由记忆完成的工作。

DeepSeek 今天最新发布的论文,试图打破这个僵局。他们给大模型装上了一个叫【Engram:一种让模型能通过“查字典”而非“搞计算”来获取知识的记忆模块】的插件。这个改动不仅让模型变得更博学,更令人意外的是,它居然让模型的逻辑推理能力也得到了显著提升。

第一章:这篇论文到底在解决什么问题

现在的大语言模型,本质上都是“算力狂魔”。当你问它一个问题时,它内部成千上万个神经元会疯狂闪烁,进行数以亿计的乘法运算。

这种方式在处理复杂逻辑时很有效,但在处理常识性知识时却非常低效。打个比方,这就好比你为了查一个单词的拼写,不肯去翻词典,非要从拉丁语词根开始分析它的演变过程。

这篇论文的核心目标就是:给大模型增加一个“快捷查询”的维度。

作者认为,大模型的智力应该由两部分组成:一部分是“脑子”(负责思考和推理的神经元),另一部分是“记忆库”(负责存储和快速检索知识的静态模块)。论文提出的 Engram 技术,就是要把这部分被浪费在简单检索上的算力释放出来,让模型能用极低的代价“想起”它看过的东西。

如果说以前的模型是在脑子里现场写书,那么搭载了 Engram 的模型就是一边思考一边翻阅身边的百科全书。

第二章:以前的主流做法为什么不够好

在 Engram 出现之前,业界提升模型容量的主流方案是【MoE:全称 Mixture-of-Experts,混合专家模型,即在大脑里雇佣一群专家,每次只叫其中几个出来干活】。

MoE 虽然比传统模型聪明,但它依然没有跳出“纯计算”的怪圈。

想象一下,你经营着一家咨询公司。MoE 的做法是:你有 100 个咨询顾问,根据客户的问题,你每次只挑 2 个最合适的顾问来回答。这确实省了工资,但问题在于,这 2 个顾问哪怕回答“ 1+1 等于几”这种弱智问题,也得按小时收费,而且他们回答之前还得在大脑里过一遍微积分。

这种做法的痛点在于:计算本身就是贵的。无论你如何切换专家,只要涉及到神经元的激活,能源和时间的开销就少不了。

更糟糕的是,很多知识是“死”的,比如某个代码库的函数名,或者某个历史人物的生日。用极其昂贵的神经元去死记硬背这些东西,不仅占地方,还容易记串行。这就是为什么大模型经常会一本正经地胡说八道。

第三章:作者的新方法:核心想法是什么

DeepSeek 的作者们换了个思路:既然有些东西只需要“查一下”就行,那我们干脆给模型配一个巨大的、可以按需查找的“活页夹”。

一句话总结这个方法:通过把传统的“ N-gram 词组统计”和现代的大模型结合,创造出一个可以随取随用的高扩展性记忆模块。

具体拆解开来,这个方法有三根支柱:

第一,采用【N-gram:一种统计学方法,通过前几个词来预测下一个词可能是什么】作为索引。这就像是你在手机输入法里输入“吃”,它会自动联想出“饭”一样简单直接。

第二,实现O(1)复杂度的查找。这个数学术语听起来吓人,其实类比一下很简单:无论你的书架上有 10 本书还是 10 万本书,你只要看一眼目录就能瞬间找到那一页,而不需要从第一本开始翻。

第三,让记忆和大脑“共同进化”。这个记忆库不是死板的,它在模型训练的过程中会不断优化自己的存储内容,确保存进去的都是大脑最需要的“干货”。

第四章:关键组件拆解:它是如何工作的

要理解 Engram 怎么工作,我们可以把它拆成三个零件:

  1. 1. 多头条件记忆组件(mHC)
    作用:它是模型派出的“图书管理员”。
    类比:就像你在图书馆想借书,你不需要自己钻进书架,而是把需求告诉管理员,他同时伸出八只手(多头),从不同角度帮你寻找最匹配的知识片段。
    澄清:它不是真的在搜索互联网,而是在搜索模型在训练阶段存进“外挂硬盘”里的海量数据。
  2. 2. Engram 嵌入向量
    作用:它是存放在“外挂硬盘”里的知识卡片。
    类比:就像是每个知识点都被浓缩成了一张带编号的贴纸。当管理员找到它时,这张贴纸会直接贴在模型的思维导图上,参与后续的思考。
    澄清:这些贴纸并不是人类能直接读懂的文字,而是模型能理解的数字密码。
  3. 3. 稀疏分配比例
    作用:它决定了模型该花多少精力去“思考”,花多少精力去“查资料”。
    类比:就像公司预算员,他要算清楚是多请几个专家(MoE)划算,还是多买几台服务器存资料(Engram)划算。
    澄清:并不是记忆库越大越好,论文发现这两者之间有一个微妙的平衡点,就像天平的两端。

第五章:实验与结果:我们该关注什么

普通读者不需要看那些复杂的坐标轴,只要记住这三个关键发现:

首先,Engram 让模型变得更博学了。在衡量大模型综合知识水平的 MMLU 考试中,搭载了 Engram 的模型比同等规格的普通模型分数高出了一大截。这意味着在回答事实性问题时,它更靠谱,不容易“瞎编”。

其次,最令人惊讶的是,它的推理能力也变强了。在衡量逻辑思维的数学(MATH)和编程(HumanEval)测试中,模型的表现大幅提升。这说明,当模型不需要费劲去记那些琐碎的知识点时,它能腾出更多的“脑力”去专心钻研复杂的逻辑难题。

最后,作者发现了一个“ U 型曲线”。这意味着在一定的算力预算下,你不能只加脑子(计算),也不能只加内存(记忆)。只有当两者的配比达到黄金比例时,模型的性价比才是最高的。

在这个追求效率的时代,能用更少的资源办更多的事,就是最硬的道理。

第六章:它的边界与代价:工程落地的坑

世界上没有免费的午餐,Engram 虽好,但也有它的局限性。

第一,它对硬件的“显存”要求很高。虽然查资料不费算力,但那个巨大的“活页夹”需要占地方。如果你的显卡显存不够大,根本装不下这个庞大的记忆模块。

第二,训练变得更复杂了。以前只需要训练一个“大脑”,现在还要同时训练一个庞大的“记忆索引系统”。这就好比你不仅要教孩子读书,还得教他如何整理出一套包含几百万个条目的图书馆索引,工作量显著增加。

第三,在极短文本的场景下,它的优势不明显。如果任务只需要简单的对话,或者完全不涉及背景知识,那么 Engram 就像是一个带着厚厚百科全书去买菜的人,显得有些大材小用。

对于工程落地来说,如何高效地存取这海量的记忆卡片,将是程序员们接下来的头号难题。

总结与未来展望

DeepSeek 的这篇论文告诉我们:大模型的未来不应该只是单纯地堆积神经元。

让上帝的归上帝,凯撒的归凯撒。让神经网络负责逻辑推理,让专门的记忆模块负责存储知识。这种“脑存分离”的设计,可能是通往通用人工智能(AGI)的一条更务实、更高效的路径。

未来,我们或许能看到更小的手机端模型,因为有了 Engram 这种“外挂”,它们能以极小的功耗拥有不亚于现在巨型模型的知识量。

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^

相关好文推荐:

Manus 中的上下文工程 | Lance

2025:LLM 的一年 | Simon Willison

引入嵌套学习(Nested Learning):一种用于持续学习的全新机器学习范式

如何构建多智能体研究系统

欢迎来到 AI 下半场

真正决定 AI 系统上限的是什么?

AI代理的上下文工程

AI的第一性原理是什么?

理解 LSTM 网络 | Ilya Sutskever’s Top 30 Reading List

循环神经网络不合理的有效性 | Ilya Sutskever’s Top 30 Reading List

复杂动力学第一定律 | Ilya Sutskever’s Top 30 Reading List

赋权于民:大语言模型如何逆转技术扩散的范式 | karpathy

软件 2.0 | karpathy

心智的空间 | karpathy

“通用智能根本不存在”?Yann LeCun 与 Demis Hassabis 正面开撕

可验证性 | karpathy

动物 vs 幽灵 | karpathy

2025年 LLM 年度回顾 | karpathy

让 AI 真正拥有“长时记忆”的开端

聊一聊OpenAI新发布的Apps SDK
苦涩的教训

0条留言

留言