欢迎来到 AI 下半场

作者：姚顺雨 | 日期：2025年4月10日 TL;DR：我们正处在 AI 的中场休息点。

几十年来，AI 基本都围绕着开发新的训练方法和模型展开。而这条路确实奏效了：从在国际象棋和围棋上击败世界冠军，到在 SAT 与律师资格考试中超过大多数人类，再到拿到 IMO 与 IOI 的金牌。写进历史书的这些里程碑——DeepBlue、AlphaGo、GPT-4 以及 o 系列——背后，是 AI 方法上的根本性创新：搜索、深度强化学习、规模化，以及推理。事情就是随着时间不断变好。

那么，现在究竟突然有什么不同？

用三个词概括：强化学习终于行了。更准确地说：强化学习终于开始泛化了。

在经历了多次重大绕路并积累了一系列关键里程碑之后，我们终于落地了一套可行的配方：用语言和推理来解决广泛的强化学习任务。即便是一年前，如果你告诉大多数 AI 研究者，有一个单一配方可以同时搞定软件工程、创意写作、IMO 难度数学、鼠标键盘操作，以及长文本问答——他们会笑你出现幻觉。因为每一个任务本身都极其困难，很多研究者会花整个博士生涯只盯住其中一个狭窄切片。

但它确实发生了。

那接下来会发生什么？

AI 的下半场——从现在开始——会把重心从“解决问题”转向“定义问题”。在这个新时代里，评测会比训练更重要。我们不再只问：“我们能不能训练一个模型来解决 X？”，而是问：“我们应该训练 AI 去做什么？我们如何衡量真正的进步？”要在下半场活得好，我们需要一次及时的思维方式与技能结构切换——某种程度上更像产品经理。

上半场（The first half）

要理解上半场，不妨先看看赢家。你认为迄今为止最有影响力的 AI 论文是什么？

我在斯坦福 224N 课堂上做过一个小测验，答案并不令人意外：Transformer、AlexNet、GPT-3 等等。这些论文有什么共同点？它们提出了训练更好模型的根本性突破；同时，它们也通过在某些基准上展示（显著的）性能提升，成功发表了论文。

但还隐藏着一个潜在共同点：这些“赢家”全部是训练方法或模型，而不是基准或任务。即便可以说是史上最具影响力的基准之一 ImageNet，其引用量也不到 AlexNet 的三分之一。方法与基准之间的反差在其他地方更夸张——比如，Transformer 的主要基准是 WMT’14，其研讨会报告大约只有 1,300 次引用，而 Transformer 论文本身却超过 160,000 次。

这说明了上半场的玩法：专注于构建新模型与新方法，而评测与基准是次要的（尽管它们是论文发表机制运转所必需的）。

为什么会这样？

一个重要原因是：在 AI 的上半场，方法比任务更难，也更令人兴奋。从零开始创造一个新算法或新模型架构——想想反向传播算法、卷积网络（AlexNet）、或后来被 GPT-3 使用的 Transformer——需要非凡的洞察力与工程能力。相比之下，为 AI 定义任务往往显得更直接：我们只是把人类已经在做的事情（翻译、图像识别、下棋）转成基准而已，并不需要多少洞察，甚至工程工作也不多。

方法通常也比单个任务更通用、更可迁移，因此价值更高。比如，Transformer 架构最终推动了计算机视觉、自然语言处理、强化学习等许多领域的进步——远远超出了它最初验证的那个单一数据集（WMT’14 翻译任务）。一个优秀的新方法因为简单且通用，往往可以同时“爬升”很多不同基准，因此影响力也自然超越某个单一任务。

这套游戏规则运行了几十年，催生了改变世界的想法与突破，并以各领域基准性能不断上升的形式显现出来。那为什么游戏会改变？因为这些想法与突破的累积，在“定性层面”上已经造就了一套可行的任务求解配方。

配方（The recipe）

这个配方是什么？

它的“原料”并不令人意外：大规模语言预训练、规模（数据与算力），以及“推理与行动”的理念。这些听起来像你在旧金山每天都会听到的流行词，但为什么称之为“配方”？

我们可以从强化学习（RL）的视角来理解。强化学习常被视为 AI 的“终局”——毕竟，RL 在理论上保证能赢得博弈；而在经验上也很难想象任何超人系统（例如 AlphaGo）能够脱离 RL 存在。

在 RL 中，有三个关键组件：算法、环境和先验（priors）。很长一段时间里，RL 研究者几乎只关注算法（如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……）——也就是智能体如何学习的智力核心——而把环境和先验视为固定的、或尽量最小化的因素。比如 Sutton 和 Barto 的经典教材几乎全是算法，几乎不谈环境或先验。

然而在深度强化学习时代，一个事实逐渐清楚：环境在经验上极其重要。一个算法的表现往往高度依赖它被开发与测试的环境。如果忽视环境，你就可能构建出一个只在玩具设置中表现“最优”的算法。那么，为什么不先弄清楚我们真正想解决的环境是什么，再去寻找最适合它的算法呢？

这正是 OpenAI 最初的计划。它构建了 Gym（一个用于各类游戏的标准 RL 环境），随后又做了 World of Bits 与 Universe 项目，试图把互联网或计算机本身变成一个游戏环境。这听起来是个好计划，不是吗？只要把所有数字世界统一成一个环境，再用聪明的 RL 算法解决它，我们就能得到数字 AGI。

这是个好计划，但并没有完全成功。OpenAI 在这条路上取得了巨大进展：用 RL 解决了 Dota、机械手等问题。但它从未接近真正解决“计算机使用”或“网页导航”，而且在一个领域里有效的 RL 智能体往往无法迁移到另一个领域。似乎总是缺了点什么。

直到 GPT-2 或 GPT-3 出现后，才发现缺失的关键是：先验知识。你需要强大的语言预训练，把通用常识与语言知识蒸馏进模型里，然后再微调，让它们变成 Web（WebGPT）或聊天（ChatGPT）智能体（并改变世界）。

事实证明，RL 中最重要的部分，可能甚至不是 RL 算法或环境，而是先验；而这些先验可以通过一种与 RL 完全无关的方式获得。

语言预训练为聊天建立了很好的先验，但对控制计算机或玩视频游戏并没有同样好的效果。为什么？因为这些领域离互联网文本分布更远，而直接做 SFT/RL 往往泛化很差。我在 2019 年就注意到了这个问题：当 GPT-2 刚出来时，我在其上做 SFT/RL 来解决文字游戏——CALM 是世界上第一个通过预训练语言模型构建的智能体。但它需要数百万步 RL 才能在单一游戏上爬升，而且完全无法迁移到新游戏。对 RL 研究者来说，这正是 RL 的典型特征，并不奇怪；但我觉得很奇怪，因为人类面对一个新游戏通常可以零样本就显著优于随机。

然后我迎来了人生最早的一次“顿悟时刻”之一：人类之所以能泛化，是因为我们可以选择做的不仅是“去柜子 2”“用钥匙 1 打开箱子 3”“用剑杀死地牢怪物”，我们还可以选择去思考诸如：“这个地牢很危险，我需要武器来对抗。没有显眼的武器，那我也许得在上锁的盒子或箱子里找。箱子 3 在柜子 2 里，我先过去把它打开。”

思考，或推理，是一种很奇怪的“行动”：它不会直接影响外部世界，但推理空间是开放且组合意义上无限的——你可以思考一个词、一句话、一整段文字，甚至 10000 个随机英文单词，而周围的世界并不会立刻变化。在经典 RL 理论里，这是一笔糟糕的交易，会让决策变得不可能。想象你需要在两个盒子中选一个，其中只有一个盒子里有 100 万美元，另一个是空的。你的期望收益是 50 万美元。现在想象我再加入无限多个空盒子。你的期望收益就变成了零。

但当我们把“推理”加入任何 RL 环境的动作空间时，我们就能利用语言预训练带来的先验来实现泛化，并且能在不同决策上灵活分配测试时算力。这是一件非常神奇的事情，我在这里也抱歉没能把它完全讲清楚——我可能需要专门写另一篇博客来解释它。你可以去读 ReAct(https://arxiv.org/abs/2210.03629)，了解“推理对智能体”的原始故事，也可以读读我当时的直觉感受。就目前而言，我的直觉解释是：即便你加入了无限多个空盒子，你在一生中各种各样的游戏里其实都见过它们，选择这些盒子的经历，会让你在任何给定游戏里更好地选择那个有钱的盒子。更抽象的解释是：语言在智能体中通过推理实现泛化。

一旦我们拥有了正确的 RL 先验（语言预训练）和正确的 RL 环境（把语言推理作为行动），RL 算法本身反而可能成了最琐碎的部分。于是我们有了 o 系列、R1、deep research、computer-using agent，以及更多即将到来的东西。多么讽刺的转折：长期以来，RL 研究者远比环境更关心算法，几乎没人关注先验——所有 RL 实验基本都是从零开始。但我们绕了几十年才意识到，也许优先级应该被完全颠倒。

但就像史蒂夫·乔布斯说的：你无法在向前看时把点连起来；你只能在回头看时把点连起来。

下半场（The second half）

这套配方正在彻底改变游戏。回顾上半场的游戏规则：

• 我们开发新颖的训练方法或模型来爬升基准。
• 我们构建更难的基准，然后继续循环。

而这套游戏正在被“毁掉”，因为：

• 这套配方本质上已经把“基准爬升”标准化并工业化了，不再需要太多新的想法。随着配方规模化且泛化良好，你针对某个任务提出的新方法也许只提升 5%，但下一个 o 系列模型即使没有特意瞄准它，也可能提升 30%。
• 即便我们构建更难的基准，它们也会很快（而且越来越快）被配方解决。我的同事 Jason Wei 做过一张漂亮的图，把这个趋势可视化得很好：

那下半场还剩什么可玩？如果新方法不再必要，而更难的基准也只会越来越快被解决，我们该做什么？

我认为我们应该从根本上重新思考评测。这不仅仅意味着构建新的、更难的基准，而是要从根本上质疑现有评测设置，并创造新的评测设置，从而迫使我们发明超越现有配方的新方法。这很难，因为人类有惯性，很少会质疑基本假设——你往往把它们当成理所当然，却没意识到它们只是“假设”，不是“定律”。

为了说明这种惯性，假设你在 2021 年发明了一个基于人类考试、堪称史上最成功的评测之一(https://arxiv.org/abs/2009.03300）。这是个极其大胆的想法，但三年后它就饱和了。

你会怎么做？大概率是做一张更难的试卷（https://agi.safe.ai/）。

再比如，你解决了“简单的编码任务”（https://arxiv.org/pdf/2107.03374）。

你会怎么做？大概率是去找更难的编码任务（https://arxiv.org/pdf/2502.06807v1），一路解决到IOI金牌水平。

惯性很自然，但问题在于：AI 已经在国际象棋和围棋上击败世界冠军，在 SAT 与律师资格考试中超过大多数人类，并在 IOI 与 IMO 达到金牌水平。但世界并没有发生太大变化，至少从经济与 GDP 的角度看是这样。

我把这称为“效用问题”，并认为这是 AI 最重要的问题。

也许我们很快就能解决效用问题，也许不能。无论如何，这个问题的根源可能出奇地简单：我们的评测设置在许多基本方面与真实世界设置不同。举两个例子：

• 评测“应该”自动运行，所以通常智能体接收一个任务输入，自主完成，然后得到任务奖励。但在现实中，智能体必须在任务过程中持续与人类互动——你不会给客服发一条超长信息，等 10 分钟，然后期望对方给出一段详尽回复就把一切都解决掉。通过质疑这一设置，人们发明了新的基准，让“真人参与”（例如 Chatbot Arena：https://lmarena.ai/）或“用户模拟”（例如 tau-bench：https://arxiv.org/abs/2406.12045）进入闭环。

• 评测“应该”是 i.i.d. 的。如果你有一个包含 500 个任务的测试集，你会独立地运行每个任务，平均指标，得到总体分数。但现实里，你往往是顺序地解决任务，而不是并行地做完。一个谷歌的软件工程师随着对仓库越来越熟悉，会越来越擅长解决 google3 的 issue；但一个 SWE 智能体却在同一仓库里解决很多 issue，却不会获得这种熟悉度。我们显然需要长期记忆方法（而且确实已经有了：例如 https://arxiv.org/pdf/2409.07429 与 https://yitaoliu17.com/assets/pdf/ICLR_2025_CER.pdf），但学术界缺少合适的基准来证明这种需求，甚至缺少质疑 i.i.d. 假设的勇气——而 i.i.d. 假设一直是机器学习的基础之一。

这些假设“似乎一直如此”。在 AI 的上半场，在这些假设下开发基准是合理的，因为当智能水平很低时，提高智能通常就能提高效用。 但现在，在这些假设下，通用配方几乎注定有效。所以，下半场的新玩法应该是：

• 我们开发面向真实世界效用的新评测设置或新任务。
• 我们用配方去解决它们，或在配方之上引入新组件。然后继续循环。

这个游戏很难，因为它不熟悉。但它也令人兴奋。上半场的玩家在解决电子游戏与考试；下半场的玩家则有机会把智能做成有用产品，建立百亿、万亿级公司。上半场充满了渐进式的方法与模型；下半场在某种程度上会过滤掉它们。通用配方会碾压你的渐进式改进，除非你创造出新的假设去打破配方。那时你才有机会做出真正改变游戏的研究。

欢迎来到下半场！

如果觉得内容不错，欢迎你点一下「在看」，或是将文章分享给其他有需要的人^^

相关好文推荐：

真正决定 AI 系统上限的是什么？

AI代理的上下文工程

AI的第一性原理是什么？

理解 LSTM 网络 | Ilya Sutskever’s Top 30 Reading List

循环神经网络不合理的有效性 | Ilya Sutskever’s Top 30 Reading List

复杂动力学第一定律 | Ilya Sutskever’s Top 30 Reading List

赋权于民：大语言模型如何逆转技术扩散的范式 | karpathy

软件 2.0 | karpathy

心智的空间 | karpathy