动物 vs 幽灵 | karpathy


作者:Andrej Karpathy | 日期:2025年10月2日

终于有机会听完了 Dwarkesh 采访 Sutton 的这期播客,非常有趣且发人深省。

作为背景,Sutton 的文章《苦涩的教训》(The Bitter Lesson)在前沿 LLM 圈子里已经成了某种“圣经”。

研究人员经常讨论或询问某个方法或想法是否足够“苦涩教训化”(bitter lesson pilled,意指其设计是否能像这一理论所推崇的那样,自动从算力的增加中获益),并以此作为判断该方向是否可行或值得追求的代理指标。

这背后的假设是,LLM 显然是高度“苦涩教训化”的,看看 LLM 的缩放定律(Scaling Laws)就知道了——只要你在 x 轴上增加算力,性能指标就会向右上方增长。

所以有趣的是,Sutton 本人并不确定 LLM 是否真的符合“苦涩教训”。

它们是在巨大的人类数据集上训练出来的,而这些数据既是 1) 人类生成的,又是 2) 有限的。

当你用完了数据怎么办?你如何防止人类偏见?

这下好了,信奉“苦涩教训”的 LLM 研究员们被“苦涩教训”的作者本人给否定了——真尴尬!

在某种意义上,Dwarkesh(在播客中代表 LLM 研究员的观点)和 Sutton 有点各说各话,因为 Sutton 心中构想的是一种完全不同的架构,而 LLM 打破了其中的许多原则。

他自称是一个“古典主义者”,并重提了艾伦·图灵(Alan Turing)最初的“孩童机器”(child machine)概念——即一个能够通过与世界动态交互来从经验中学习的系统。

那里没有模仿互联网网页的巨大预训练阶段,也没有监督微调(SFT)。

他指出监督微调在动物界是不存在的(这是一个微妙的观点,但从强意义上讲 Sutton 是对的:动物当然会观察演示,但它们的动作并不是由其他动物直接强迫或“远程操控”完成的)。

他提出的另一个重要观点是,即使你只是将预训练视为强化学习微调之前的一种先验初始化,Sutton 依然认为这种方法被人类偏见污染了,且从根本上偏离了航向。

这有点像 AlphaZero(从未看过人类棋谱)击败 AlphaGo(从人类棋谱初始化)的情况。

在 Sutton 的世界观里,一切皆是基于强化学习与世界的交互,奖励函数部分是环境特定的,但也包含内在动机,例如“乐趣”、“好奇心”,以及与你的世界模型预测质量相关的因素。

而且,智能体默认总是在测试时学习(test time learning),而不是训练一次后就一劳永逸地部署。

总的来说,Sutton 更感兴趣的是我们与动物界的共同点,而不是区别。

“如果我们能理解一只松鼠,我们就离成功不远了”。

至于我的看法……

首先,我要说我认为 Sutton 是这期播客的绝佳嘉宾。

我也很庆幸 AI 领域保持了思想的熵(多样性),并非所有人都在挖掘 LLM 的下一个局部迭代。

AI 经历过太多次主导方法的离散变迁,不能失去这种多样性。

而且我也认为他批评 LLM 不够“苦涩教训化”并非没有道理。

前沿 LLM 现在是高度复杂的人造产物,在所有阶段都包含了大量的人类因素——基础(预训练数据)全是人类文本,微调数据是人类生成和策划的,强化学习的环境组合也是由人类工程师调整的。

事实上,我们并没有一个真正的、单一的、干净的、真正符合“苦涩教训”的、“转动曲柄”就能让它在世界上自动从经验中学习的算法。

这种算法甚至存在吗?找到它当然会是一个巨大的 AI 突破。

人们通常提供两个“例证”来论证这种东西是可能的。

第一个例子是 AlphaZero 在没有任何人类监督的情况下从零开始学会下围棋。

但围棋显然是一个如此简单、封闭的环境,很难在现实世界的混乱中找到类似的公式。

我热爱围棋,但在算法和分类上,它本质上只是井字棋(tic tac toe)的更难版本。

第二个例子是 动物,比如松鼠。

而在这一点上,我个人也非常犹豫这是否恰当,因为动物是通过一种截然不同的计算过程产生的,且受到的约束也与我们在工业界实际可用的条件不同。

动物的大脑在出生时远非看起来那样的“白板”(blank slate)。

首先,很多通常归因于“学习”的东西,依我看更多是“成熟”(maturation)。

其次,即使那些显然是“学习”而非成熟的部分,也更多是在某种显然强大且预先存在的基础之上的“微调”。

举个例子。一只小斑马出生后,几十分钟内就能在草原上奔跑并跟随母亲。

这是一个高度复杂的感知-运动任务,我认为这绝不可能是从零开始、白板式(tabula rasa)学会的。

动物的大脑及其数十亿个参数,在其 DNA 的 ATCG 序列中编码了强大的初始化,这是通过进化过程中的“外循环”优化训练出来的。

如果小斑马像强化学习策略在初始化时那样随机抽搐肌肉,它根本走不了多远。

同样,我们的 AI 现在也有拥有数十亿参数的神经网络。

这些参数需要它们自己丰富的、高信息密度的监督信号。

我们不打算重跑一遍进化过程。但我们确实有堆积如山的互联网文档。

是的,这基本上是动物界几乎不存在的监督学习。

但这是一种实用的方法,可以为数十亿个参数收集足够的软约束,以此达到一个不必从零开始的起点。

太长不看版(TLDR):预训练就是我们那个蹩脚的“进化”过程。

它是解决冷启动问题的一个候选方案,随后可以在看起来更正确的任务上进行微调,例如在强化学习框架内,正如目前最先进的前沿 LLM 实验室普遍所做的那样。

但我仍然认为值得从动物身上汲取灵感。

我认为 LLM 智能体在算法上确实缺失了多个强大的理念,而这些理念依然可以从动物智能中借鉴。

我仍然认为“苦涩的教训”是正确的,但我更多地将其视为一种在现实世界和实际操作中值得追求的柏拉图式理想,而不一定非要完全达到。

我对这两点看法都保留了两位数百分比的不确定性,并为那些持不同意见的人(尤其是那些在“苦涩教训”方面更有野心的人)以此喝彩。

这把我们带到了现在的处境。

直白地说,今天的前沿 LLM 研究并不是在构建动物。它是在召唤幽灵(summoning ghosts)。

你可以把“幽灵”想象成智能空间中一个根本不同的点。

它们被人类混淆了。被人类彻底地工程化了。它们是这种不完美的复制品,是人类文档的一种统计学蒸馏,上面撒了一点点佐料。

它们在柏拉图意义上并非“苦涩教训化”的,但相比之前的许多东西,它们或许在“实用”层面上是符合“苦涩教训”的。

对我来说,随着时间的推移,我们似乎可以进一步将我们的“幽灵”微调得越来越像“动物”;

这与其说是根本的不兼容,不如说是智能空间中初始化的问题。

但也很有可能它们会进一步分化,最终变得永久不同,不像动物,但仍然极有帮助且真正地改变世界。

有可能 幽灵:动物 :: 飞机:鸟类。 (即幽灵之于动物,犹如飞机之于鸟类——飞机受鸟类启发但原理和形态已截然不同)。

总之,总的来说且在行动上,我认为这期播客是 Sutton 对前沿 LLM 研究人员的一次扎实的“实话实说”,这些研究人员可能在“利用”(exploit)模式上换挡有点太过了。

可能我们仍然不够“苦涩教训化”,除了穷尽式的刷榜(benchbuilding and benchmaxxing),很有可能还存在更强大的想法和范式。

动物可能是一个很好的灵感来源。内在动机、乐趣、好奇心、赋能(empowerment)、多智能体自我博弈、文化。

发挥你的想象力吧。


附录

  • • 我同意 Sutton 的观点,即动物不进行监督学习。我意识到这是一个微妙的点,会让很多人感到困惑。动物确实会观察演示,但严格来说,它们并不像监督学习那样直接被动作所监督。动物从未在训练模式下被远程操控。我能想到的最接近的情况是,例如你教孩子用勺子吃饭,真的抓着他们的手展示动作。即使那样,也不清楚他们的大脑是否真的在对此进行训练。这可能仍然属于更准确地描述为“观察”的范畴。但无论如何,这些情况总体上非常罕见,而在 LLM 的情况下,这是预训练和 SFT 期间的默认学习模式。
  • • 也许另一种表达方式是,在 LLM 领域中与人类行为类似的对应物大概是:给定上下文中的这个数学问题和人类示例解法,解决这个问题。如果正确则奖励为 1。这不是 SFT,这是 RL。
  • • Dwarkesh 简要提出了一个观点,即 LLM 确实有其自己在测试时的持续学习(continual learning),只是不基于权重训练,但我认为 Sutton 没有完全回应这一点。上下文学习(In context learning)是测试时适应的一种形式,也是例如少样本提示(few shot prompting)起作用的原因。最近的很多工作也非常关注作为测试时学习机制的记忆(参考 CLAUDE.md 文件),它使用文本/上下文作为基质而不是权重。
  • • Dwarkesh 提到了非常长周期的稀疏奖励(例如建立一家成功的创业公司)以及它是如何运作的例子。Sutton 给出的解决方案是时序差分学习(TD learning)和本质上的未来奖励折现,我觉得这并没有特别的说服力。我之前对此写过更多内容,我认为还有其他机制在起作用,依我看那不是强化学习。
  • • 还有很多关于“梯度下降无法让你很好地泛化”以及相关的讨论,我没太跟上。
  • • 有人指出幽灵很可怕。也不一定,看看《鬼马小精灵》(Casper),我童年的最爱。

相关好文推荐:

2025年 LLM 年度回顾 | karpathy

让 AI 真正拥有“长时记忆”的开端

一次关于未来智能的深度对话

假如科学被做成了自动售卖机

聊一聊OpenAI新发布的Apps SDK
苦涩的教训
特朗普签署AI行动计划,AI全球赛跑加速,中国准备好了吗?
Flux Context Dev:一句话玩转AI修图,免费开源神器!
马斯克Neuralink最新发布会!大脑直接操控电脑,人类正式迈入“意识互联”时代!

0条留言

留言