欢迎来到 AI 下半场

作者:姚顺雨 | 日期:2025年4月10日 TL;DR:我们正处在 AI 的中场休息点。

几十年来,AI 基本都围绕着开发新的训练方法和模型展开。而这条路确实奏效了:从在国际象棋和围棋上击败世界冠军,到在 SAT 与律师资格考试中超过大多数人类,再到拿到 IMO 与 IOI 的金牌。写进历史书的这些里程碑——DeepBlue、AlphaGo、GPT-4 以及 o 系列——背后,是 AI 方法上的根本性创新:搜索、深度强化学习、规模化,以及推理。事情就是随着时间不断变好。

那么,现在究竟突然有什么不同?

用三个词概括:强化学习终于行了。更准确地说:强化学习终于开始泛化了

在经历了多次重大绕路并积累了一系列关键里程碑之后,我们终于落地了一套可行的配方:用语言和推理来解决广泛的强化学习任务。即便是一年前,如果你告诉大多数 AI 研究者,有一个单一配方可以同时搞定软件工程、创意写作、IMO 难度数学、鼠标键盘操作,以及长文本问答——他们会笑你出现幻觉。因为每一个任务本身都极其困难,很多研究者会花整个博士生涯只盯住其中一个狭窄切片。

但它确实发生了。

那接下来会发生什么?

AI 的下半场——从现在开始——会把重心从“解决问题”转向“定义问题”。在这个新时代里,评测会比训练更重要。我们不再只问:“我们能不能训练一个模型来解决 X?”,而是问:“我们应该训练 AI 去做什么?我们如何衡量真正的进步?”要在下半场活得好,我们需要一次及时的思维方式与技能结构切换——某种程度上更像产品经理。

上半场(The first half)

要理解上半场,不妨先看看赢家。你认为迄今为止最有影响力的 AI 论文是什么?

我在斯坦福 224N 课堂上做过一个小测验,答案并不令人意外:Transformer、AlexNet、GPT-3 等等。这些论文有什么共同点?它们提出了训练更好模型的根本性突破;同时,它们也通过在某些基准上展示(显著的)性能提升,成功发表了论文。

但还隐藏着一个潜在共同点:这些“赢家”全部是训练方法或模型,而不是基准或任务。即便可以说是史上最具影响力的基准之一 ImageNet,其引用量也不到 AlexNet 的三分之一。方法与基准之间的反差在其他地方更夸张——比如,Transformer 的主要基准是 WMT’14,其研讨会报告大约只有 1,300 次引用,而 Transformer 论文本身却超过 160,000 次。

这说明了上半场的玩法:专注于构建新模型与新方法,而评测与基准是次要的(尽管它们是论文发表机制运转所必需的)。

为什么会这样?

一个重要原因是:在 AI 的上半场,方法比任务更难,也更令人兴奋。从零开始创造一个新算法或新模型架构——想想反向传播算法、卷积网络(AlexNet)、或后来被 GPT-3 使用的 Transformer——需要非凡的洞察力与工程能力。相比之下,为 AI 定义任务往往显得更直接:我们只是把人类已经在做的事情(翻译、图像识别、下棋)转成基准而已,并不需要多少洞察,甚至工程工作也不多。

方法通常也比单个任务更通用、更可迁移,因此价值更高。比如,Transformer 架构最终推动了计算机视觉、自然语言处理、强化学习等许多领域的进步——远远超出了它最初验证的那个单一数据集(WMT’14 翻译任务)。一个优秀的新方法因为简单且通用,往往可以同时“爬升”很多不同基准,因此影响力也自然超越某个单一任务。

这套游戏规则运行了几十年,催生了改变世界的想法与突破,并以各领域基准性能不断上升的形式显现出来。那为什么游戏会改变?因为这些想法与突破的累积,在“定性层面”上已经造就了一套可行的任务求解配方。

配方(The recipe)

这个配方是什么?

它的“原料”并不令人意外:大规模语言预训练、规模(数据与算力),以及“推理与行动”的理念。这些听起来像你在旧金山每天都会听到的流行词,但为什么称之为“配方”?

我们可以从强化学习(RL)的视角来理解。强化学习常被视为 AI 的“终局”——毕竟,RL 在理论上保证能赢得博弈;而在经验上也很难想象任何超人系统(例如 AlphaGo)能够脱离 RL 存在。

在 RL 中,有三个关键组件:算法、环境和先验(priors)。很长一段时间里,RL 研究者几乎只关注算法(如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……)——也就是智能体如何学习的智力核心——而把环境和先验视为固定的、或尽量最小化的因素。比如 Sutton 和 Barto 的经典教材几乎全是算法,几乎不谈环境或先验。

然而在深度强化学习时代,一个事实逐渐清楚:环境在经验上极其重要。一个算法的表现往往高度依赖它被开发与测试的环境。如果忽视环境,你就可能构建出一个只在玩具设置中表现“最优”的算法。那么,为什么不先弄清楚我们真正想解决的环境是什么,再去寻找最适合它的算法呢?

这正是 OpenAI 最初的计划。它构建了 Gym(一个用于各类游戏的标准 RL 环境),随后又做了 World of Bits 与 Universe 项目,试图把互联网或计算机本身变成一个游戏环境。这听起来是个好计划,不是吗?只要把所有数字世界统一成一个环境,再用聪明的 RL 算法解决它,我们就能得到数字 AGI。

这是个好计划,但并没有完全成功。OpenAI 在这条路上取得了巨大进展:用 RL 解决了 Dota、机械手等问题。但它从未接近真正解决“计算机使用”或“网页导航”,而且在一个领域里有效的 RL 智能体往往无法迁移到另一个领域。似乎总是缺了点什么。

直到 GPT-2 或 GPT-3 出现后,才发现缺失的关键是:先验知识。你需要强大的语言预训练,把通用常识与语言知识蒸馏进模型里,然后再微调,让它们变成 Web(WebGPT)或聊天(ChatGPT)智能体(并改变世界)。

事实证明,RL 中最重要的部分,可能甚至不是 RL 算法或环境,而是先验;而这些先验可以通过一种与 RL 完全无关的方式获得。

语言预训练为聊天建立了很好的先验,但对控制计算机或玩视频游戏并没有同样好的效果。为什么?因为这些领域离互联网文本分布更远,而直接做 SFT/RL 往往泛化很差。我在 2019 年就注意到了这个问题:当 GPT-2 刚出来时,我在其上做 SFT/RL 来解决文字游戏——CALM 是世界上第一个通过预训练语言模型构建的智能体。但它需要数百万步 RL 才能在单一游戏上爬升,而且完全无法迁移到新游戏。对 RL 研究者来说,这正是 RL 的典型特征,并不奇怪;但我觉得很奇怪,因为人类面对一个新游戏通常可以零样本就显著优于随机。

然后我迎来了人生最早的一次“顿悟时刻”之一:人类之所以能泛化,是因为我们可以选择做的不仅是“去柜子 2”“用钥匙 1 打开箱子 3”“用剑杀死地牢怪物”,我们还可以选择去思考诸如:“这个地牢很危险,我需要武器来对抗。没有显眼的武器,那我也许得在上锁的盒子或箱子里找。箱子 3 在柜子 2 里,我先过去把它打开。”

思考,或推理,是一种很奇怪的“行动”:它不会直接影响外部世界,但推理空间是开放且组合意义上无限的——你可以思考一个词、一句话、一整段文字,甚至 10000 个随机英文单词,而周围的世界并不会立刻变化。在经典 RL 理论里,这是一笔糟糕的交易,会让决策变得不可能。想象你需要在两个盒子中选一个,其中只有一个盒子里有 100 万美元,另一个是空的。你的期望收益是 50 万美元。现在想象我再加入无限多个空盒子。你的期望收益就变成了零。

但当我们把“推理”加入任何 RL 环境的动作空间时,我们就能利用语言预训练带来的先验来实现泛化,并且能在不同决策上灵活分配测试时算力。这是一件非常神奇的事情,我在这里也抱歉没能把它完全讲清楚——我可能需要专门写另一篇博客来解释它。你可以去读 ReAct(https://arxiv.org/abs/2210.03629), 了解“推理对智能体”的原始故事,也可以读读我当时的直觉感受。就目前而言,我的直觉解释是:即便你加入了无限多个空盒子,你在一生中各种各样的游戏里其实都见过它们,选择这些盒子的经历,会让你在任何给定游戏里更好地选择那个有钱的盒子。更抽象的解释是:语言在智能体中通过推理实现泛化。

一旦我们拥有了正确的 RL 先验(语言预训练)和正确的 RL 环境(把语言推理作为行动),RL 算法本身反而可能成了最琐碎的部分。于是我们有了 o 系列、R1、deep research、computer-using agent,以及更多即将到来的东西。多么讽刺的转折:长期以来,RL 研究者远比环境更关心算法,几乎没人关注先验——所有 RL 实验基本都是从零开始。但我们绕了几十年才意识到,也许优先级应该被完全颠倒。

但就像史蒂夫·乔布斯说的:你无法在向前看时把点连起来;你只能在回头看时把点连起来。

下半场(The second half)

这套配方正在彻底改变游戏。回顾上半场的游戏规则:

  • • 我们开发新颖的训练方法或模型来爬升基准。
  • • 我们构建更难的基准,然后继续循环。

而这套游戏正在被“毁掉”,因为:

  • • 这套配方本质上已经把“基准爬升”标准化并工业化了,不再需要太多新的想法。随着配方规模化且泛化良好,你针对某个任务提出的新方法也许只提升 5%,但下一个 o 系列模型即使没有特意瞄准它,也可能提升 30%。
  • • 即便我们构建更难的基准,它们也会很快(而且越来越快)被配方解决。我的同事 Jason Wei 做过一张漂亮的图,把这个趋势可视化得很好:

那下半场还剩什么可玩?如果新方法不再必要,而更难的基准也只会越来越快被解决,我们该做什么?

我认为我们应该从根本上重新思考评测。这不仅仅意味着构建新的、更难的基准,而是要从根本上质疑现有评测设置,并创造新的评测设置,从而迫使我们发明超越现有配方的新方法。这很难,因为人类有惯性,很少会质疑基本假设——你往往把它们当成理所当然,却没意识到它们只是“假设”,不是“定律”。

为了说明这种惯性,假设你在 2021 年发明了一个基于人类考试、堪称史上最成功的评测之一(https://arxiv.org/abs/2009.03300)。 这是个极其大胆的想法,但三年后它就饱和了。

你会怎么做?大概率是做一张更难的试卷(https://agi.safe.ai/)。

再比如,你解决了“简单的编码任务”(https://arxiv.org/pdf/2107.03374)。

你会怎么做?大概率是去找更难的编码任务(https://arxiv.org/pdf/2502.06807v1), 一路解决到IOI金牌水平。

惯性很自然,但问题在于:AI 已经在国际象棋和围棋上击败世界冠军,在 SAT 与律师资格考试中超过大多数人类,并在 IOI 与 IMO 达到金牌水平。但世界并没有发生太大变化,至少从经济与 GDP 的角度看是这样。

我把这称为“效用问题”,并认为这是 AI 最重要的问题。

也许我们很快就能解决效用问题,也许不能。无论如何,这个问题的根源可能出奇地简单:我们的评测设置在许多基本方面与真实世界设置不同。举两个例子:

  • • 评测“应该”自动运行,所以通常智能体接收一个任务输入,自主完成,然后得到任务奖励。但在现实中,智能体必须在任务过程中持续与人类互动——你不会给客服发一条超长信息,等 10 分钟,然后期望对方给出一段详尽回复就把一切都解决掉。通过质疑这一设置,人们发明了新的基准,让“真人参与”(例如 Chatbot Arena:https://lmarena.ai/)或“用户模拟”(例如 tau-bench:https://arxiv.org/abs/2406.12045)进入闭环。

  • • 评测“应该”是 i.i.d. 的。如果你有一个包含 500 个任务的测试集,你会独立地运行每个任务,平均指标,得到总体分数。但现实里,你往往是顺序地解决任务,而不是并行地做完。一个谷歌的软件工程师随着对仓库越来越熟悉,会越来越擅长解决 google3 的 issue;但一个 SWE 智能体却在同一仓库里解决很多 issue,却不会获得这种熟悉度。我们显然需要长期记忆方法(而且确实已经有了:例如 https://arxiv.org/pdf/2409.07429 与 https://yitaoliu17.com/assets/pdf/ICLR_2025_CER.pdf),但学术界缺少合适的基准来证明这种需求,甚至缺少质疑 i.i.d. 假设的勇气——而 i.i.d. 假设一直是机器学习的基础之一。

这些假设“似乎一直如此”。在 AI 的上半场,在这些假设下开发基准是合理的,因为当智能水平很低时,提高智能通常就能提高效用。 但现在,在这些假设下,通用配方几乎注定有效。所以,下半场的新玩法应该是:

  • • 我们开发面向真实世界效用的新评测设置或新任务。
  • • 我们用配方去解决它们,或在配方之上引入新组件。然后继续循环。

这个游戏很难,因为它不熟悉。但它也令人兴奋。上半场的玩家在解决电子游戏与考试;下半场的玩家则有机会把智能做成有用产品,建立百亿、万亿级公司。上半场充满了渐进式的方法与模型;下半场在某种程度上会过滤掉它们。通用配方会碾压你的渐进式改进,除非你创造出新的假设去打破配方。那时你才有机会做出真正改变游戏的研究。

欢迎来到下半场!

如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^

相关好文推荐:

真正决定 AI 系统上限的是什么?

AI代理的上下文工程

AI的第一性原理是什么?

理解 LSTM 网络 | Ilya Sutskever’s Top 30 Reading List

循环神经网络不合理的有效性 | Ilya Sutskever’s Top 30 Reading List

复杂动力学第一定律 | Ilya Sutskever’s Top 30 Reading List

赋权于民:大语言模型如何逆转技术扩散的范式 | karpathy

软件 2.0 | karpathy

心智的空间 | karpathy

“通用智能根本不存在”?Yann LeCun 与 Demis Hassabis 正面开撕

可验证性 | karpathy

动物 vs 幽灵 | karpathy

2025年 LLM 年度回顾 | karpathy

让 AI 真正拥有“长时记忆”的开端

聊一聊OpenAI新发布的Apps SDK
苦涩的教训

0条留言

留言