理解推理型 LLM | Sebastian Raschka

作者：Sebastian Raschka | 日期：2025年2月5日

本文介绍了构建推理模型的四种主要方法，或者说，我们如何增强 LLM 的推理能力。我希望这能提供有价值的见解，帮助你理解这一主题中快速演进的文献与相关炒作。

在 2024 年，LLM 领域出现了日益增强的专业化趋势。除了预训练与微调之外，我们还见证了专用应用的兴起，从 RAG 到代码助手不一而足。我预计这一趋势将在 2025 年进一步加速，并更加侧重于面向领域与应用的特定优化（即“专业化”）。

阶段 1–3 是开发 LLM 的通用步骤。阶段 4 则是针对特定使用场景对 LLM 进行专业化

推理模型的开发正是这些专业化方向之一。这意味着我们会对 LLM 进行精炼，使其在需要通过中间步骤才能最好解决的复杂任务上表现出色，例如谜题、高等数学以及编程挑战。然而，这种专业化并不会取代其他 LLM 应用。因为将 LLM 转变为推理模型也会引入一些特定的缺点，我将在后文中进行讨论。

为了让你对下文的内容有一个简要的概览，在本文中，我将：

1. 解释“推理模型”的含义
2. 讨论推理模型的优势与劣势
3. 概述 DeepSeek R1 背后的方法论
4. 描述构建与改进推理模型的四种主要方法
5. 分享在 DeepSeek V3 与 R1 发布之后我对 LLM 生态格局的看法
6. 提供在预算有限的情况下开发推理模型的建议

希望你能发现这篇文章对你有所帮助，随着 AI 在今年持续快速发展！

如何定义“推理模型”？

如果你从事 AI（或更广义的机器学习）相关工作，你很可能已经熟悉这些模糊且长期存在激烈争论的定义。“推理模型”这一术语也不例外。最终，总会有人在一篇论文中对它进行形式化定义，但很快又会在下一篇论文中被重新定义，如此反复。

在本文中，我将“推理”定义为这样一种过程：回答那些需要复杂、多步骤生成，并包含中间步骤的问题。例如，像“法国的首都是什么？”这样的事实型问答并不涉及推理。相反，像“如果一列火车以每小时 60 英里的速度行驶 3 小时，它会行驶多远？”这样的问题，则需要一些简单的推理。比如，它要求在得出答案之前，先识别距离、速度和时间之间的关系。

普通的 LLM 可能只会给出一个简短的答案（如左图所示），而推理模型通常会包含中间步骤，从而揭示部分思考过程。（需要注意的是，许多并非专门为推理任务而开发的 LLM，也能够在回答中提供中间推理步骤。）

大多数现代 LLM 都具备基本的推理能力，并且可以回答诸如“如果一列火车以每小时 60 英里的速度行驶 3 小时，它会行驶多远？”这样的问题。因此，在今天，当我们提到推理模型时，通常指的是那些在更复杂推理任务上表现出色的 LLM，例如解谜题、脑筋急转弯以及数学证明。

此外，当今大多数被标榜为推理模型的 LLM，都会在其响应中包含某种“思考”或“思维”过程。至于 LLM 是否真的在“思考”，以及它是如何“思考”的，则是另一个独立的话题。

推理模型中的中间步骤可以通过两种方式出现。第一种，它们可能会像前图所示那样，被明确地包含在响应中。第二种，一些推理型 LLM（例如 OpenAI 的 o1）会在内部运行多次迭代，包含中间步骤，但这些步骤并不会展示给用户。

“推理”在两个不同层面上被使用： 1）在处理输入并通过多个中间步骤进行生成的过程层面； 2）在向用户提供响应时，将某种形式的推理作为输出内容的一部分。

什么时候应该使用推理模型？

现在我们已经定义了什么是推理模型，接下来就可以进入更有意思的部分：如何为推理任务构建和改进 LLM。不过，在深入技术细节之前，有一个问题非常重要，那就是——推理模型究竟在什么时候才是必要的。

什么时候我们需要推理模型？推理模型被设计用于擅长复杂任务，例如解谜、高等数学问题以及具有挑战性的编程任务。然而，对于诸如摘要、翻译或基于知识的问答这类更简单的任务，它们并不是必需的。事实上，将推理模型用于所有任务往往既低效又昂贵。例如，推理模型通常使用成本更高、输出更冗长，并且有时会因为“过度思考”而更容易出错。在这里同样适用一条简单的原则：为任务选择合适的工具（或合适类型的 LLM）。

推理模型的关键优势与局限性总结如下图所示。

简要了解 DeepSeek 的训练流水线

在下一节讨论构建和改进推理模型的四种主要方法之前，我想先简要概述一下 DeepSeek R1 的训练流水线，该流程在 DeepSeek R1 技术报告中有所描述。这份报告既是一个有趣的案例研究，同时也可以被视为开发推理型 LLM 的一份蓝图。

需要注意的是，DeepSeek 并未只发布一个单一的 R1 推理模型，而是推出了三种不同的变体：DeepSeek-R1-Zero、DeepSeek-R1 以及 DeepSeek-R1-Distill。

基于技术报告中的描述，我在下图中总结了这些模型的开发过程。

接下来，我们简要回顾一下上图所示的流程。更多细节将在下一节中介绍，届时我们将讨论构建和改进推理模型的四种主要方法。

（1）DeepSeek-R1-Zero：该模型基于 2024 年 12 月发布的、拥有 671B 参数的预训练 DeepSeek-V3 基础模型。研究团队使用强化学习（RL）对其进行训练，并采用了两种奖励类型。这种方法被称为“冷启动”训练，因为其中并未包含监督微调（SFT）阶段，而监督微调通常是基于人类反馈的强化学习（RLHF）流程的一部分。

（2）DeepSeek-R1：这是 DeepSeek 的旗舰推理模型，构建于 DeepSeek-R1-Zero 之上。团队通过额外的 SFT 阶段以及进一步的强化学习训练对其进行了精炼，从而在“冷启动”的 R1-Zero 模型基础上进一步提升性能。

（3）DeepSeek-R1-Distill：利用前述步骤中生成的 SFT 数据，DeepSeek 团队对 Qwen 和 Llama 模型进行了微调，以增强它们的推理能力。虽然这在严格意义上并不属于传统的蒸馏，但这一过程确实涉及到使用更大的 DeepSeek-R1 671B 模型的输出，对更小的模型（Llama 8B 和 70B，以及 Qwen 1.5B–30B）进行训练。

构建与改进推理模型的四种主要方式

在本节中，我将概述当前用于增强 LLM 推理能力、以及构建专用推理模型（如 DeepSeek-R1、OpenAI 的 o1 与 o3 等）的关键技术。

注意：o1 和 o3 的具体工作机制在 OpenAI 之外仍然未知。不过，有传言称它们结合使用了推理阶段与训练阶段的多种技术。

1）推理时扩展（Inference-time scaling）

提升 LLM 推理能力（或者更广义地说，提升任何能力）的一种方式是推理时扩展。这个术语可以有多种含义，但在这里，它指的是在推理阶段增加计算资源，以提高输出质量。

一个粗略的类比是：人类在面对复杂问题时，通常在拥有更多思考时间的情况下，能够给出更好的回答。类似地，我们也可以采用一些技术，鼓励 LLM 在生成答案时“多思考”。（当然，LLM 是否真的在“思考”是另一个话题。）

推理时扩展的一种直接方法是巧妙的提示词工程。一个经典示例是思维链（Chain-of-Thought，CoT）提示，在输入提示中加入诸如“逐步思考（think step by step）”之类的短语。这会鼓励模型生成中间推理步骤，而不是直接跳到最终答案，这在更复杂的问题上通常（但并非总是）能够带来更准确的结果。（需要注意的是，对于更简单的基于知识的问题，例如“法国的首都是什么？”，使用这种策略并没有意义。这同样是判断某个输入查询是否适合使用推理模型的一条经验法则。）

来自 2022 年论文 Large Language Models are Zero-Shot Reasoners（https://arxiv.org/abs/2205.11916）的一个经典 CoT 提示示例

上述 CoT 方法可以被视为一种推理时扩展，因为它通过生成更多输出 token，使推理过程变得更加昂贵。

另一种推理时扩展的方法是使用投票和搜索策略。一个简单的例子是多数投票：让 LLM 生成多个答案，然后通过多数票来选择正确答案。类似地，我们还可以使用束搜索（beam search）以及其他搜索算法来生成更优的回答。

我强烈推荐我在之前的《2024 年值得关注的 AI 研究论文（第二部分）》文章中介绍过的论文 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters（https://arxiv.org/abs/2408.03314），以获取有关这些不同策略的更多细节。

不同的基于搜索的方法依赖于基于过程奖励的模型来选择最佳答案。该图为论文 *LLM Test-Time Compute*（https://arxiv.org/abs/2408.03314）中的标注图

DeepSeek R1 技术报告将常见的推理时扩展方法（例如基于过程奖励模型的方法以及基于蒙特卡洛树搜索的方法）归类为“未成功的尝试”。这表明，除了 R1 模型本身相较于 V3 基础模型更倾向于生成更长响应、从而形成一种隐式的推理时扩展之外，DeepSeek 并未显式地使用这些技术。

不过，显式的推理时扩展通常是在应用层实现的，而不是直接在 LLM 本身内部实现的，因此 DeepSeek 仍然可能在其应用中使用了这些技术。

我猜测 OpenAI 的 o1 和 o3 模型使用了推理时扩展，这也解释了为什么它们相较于 GPT-4o 等模型价格更高。除了推理时扩展之外，o1 和 o3 很可能还采用了与 DeepSeek R1 类似的强化学习训练流水线。关于强化学习的更多内容，将在下面两个小节中继续讨论。

2）纯强化学习（Pure Reinforcement Learning，RL）

在 DeepSeek R1 论文中，我个人认为最引人注目的发现之一是：推理作为一种行为，可以从纯强化学习（RL）中自然涌现。下面我们更详细地探讨这一点意味着什么。

如前所述，DeepSeek 开发了三种不同类型的 R1 模型。其中第一种是 DeepSeek-R1-Zero，它构建于 DeepSeek-V3 基础模型之上。DeepSeek-V3 是一个标准的预训练 LLM，于 2024 年 12 月发布。与典型的 RL 流水线（通常会在 RL 之前先进行监督微调（SFT））不同，DeepSeek-R1-Zero 完全仅通过强化学习进行训练，在初始阶段并未包含任何 SFT，这一点如下图所示。

尽管如此，这一 RL 过程在整体结构上仍然类似于常见的 RLHF 方法，而 RLHF 通常用于对 LLM 进行偏好对齐。（我在另一篇文章《LLM Training: RLHF and Its Alternatives》中对 RLHF 做过更详细的介绍。）然而，如前所述，DeepSeek-R1-Zero 的关键差异在于：它跳过了用于指令调优的监督微调（SFT）阶段。正因如此，作者将其称为“纯”RL。（当然，需要指出的是，LLM 场景下的 RL 与传统意义上的强化学习有着显著差异，这本身又是另一个话题。）

在奖励设计方面，他们并未使用基于人类偏好训练的奖励模型，而是采用了两种奖励类型：准确性奖励 和 格式奖励。

• 准确性奖励通过使用 LeetCode 编译器来验证代码类问题的答案，并使用一个确定性系统来评估数学题的回答是否正确。
• 格式奖励则依赖一个 LLM 评审模型，用于确保输出遵循预期的格式，例如要求将推理步骤放置在标签之中。

令人惊讶的是，仅凭这种设置，就足以让 LLM 发展出基本的推理能力。研究人员观察到了一个被称为 “Aha!” 的时刻：尽管模型并未被显式训练去生成推理过程，但它开始在回答中自发地产生推理轨迹，如下图所示。

来自 DeepSeek R1 技术报告（https://arxiv.org/abs/2501.12948）的一张图，展示了“Aha”时刻的出现

尽管 R1-Zero 并不是性能最强的推理模型，但它确实通过生成中间“思考”步骤展现了推理能力，如上图所示。这一结果证实了：仅依靠纯强化学习也可以构建出具备推理能力的模型，而 DeepSeek 团队是第一个展示（或至少是第一个公开发表）这一方法的研究团队。

3）监督微调与强化学习（SFT + RL）

接下来，我们来看 DeepSeek-R1 的开发过程。DeepSeek-R1 是 DeepSeek 的旗舰推理模型，可作为构建推理模型的一个蓝图。该模型在 DeepSeek-R1-Zero 的基础上，通过引入额外的监督微调（SFT）和强化学习（RL），进一步提升了其推理性能。

需要注意的是，在 RL 之前加入一个 SFT 阶段实际上是很常见的做法，正如标准的 RLHF 流水线所示。OpenAI 的 o1 很可能也是采用了类似的方法进行开发。

如上图所示，DeepSeek 团队使用 DeepSeek-R1-Zero 生成了他们称之为“冷启动（cold-start）”的 SFT 数据。“冷启动”这一术语指的是：这些数据由 DeepSeek-R1-Zero 生成，而 DeepSeek-R1-Zero 本身并未在任何监督微调（SFT）数据上进行过训练。

利用这些冷启动 SFT 数据，DeepSeek 随后首先通过指令微调对模型进行训练，接着又进行了一个新的强化学习（RL）阶段。该 RL 阶段沿用了 DeepSeek-R1-Zero 在 RL 过程中使用的准确性奖励和格式奖励。不过，他们额外加入了一种一致性奖励，用于防止语言混合，即模型在一次响应中在多种语言之间来回切换的现象。

在这一 RL 阶段之后，又进行了一轮 SFT 数据收集。在该阶段中，研究人员使用最新的模型检查点生成了 60 万条思维链（Chain-of-Thought，CoT）SFT 示例，同时还使用 DeepSeek-V3 基础模型额外生成了 20 万条基于知识的 SFT 示例。

随后，这 60 万 + 20 万条 SFT 样本被用于对 DeepSeek-V3 基础模型进行指令微调，之后再接上一轮最终的 RL 训练。在这一阶段中，对于数学和编程类问题，他们再次使用基于规则的方法来提供准确性奖励，而对于其他类型的问题，则使用人类偏好标注。总体而言，这一流程与常规的 RLHF 非常相似，只不过这里的 SFT 数据包含了（更多的）思维链示例，并且 RL 阶段除了基于人类偏好的奖励之外，还引入了可验证的奖励。

最终模型 DeepSeek-R1 由于额外的 SFT 与 RL 阶段，相较于 DeepSeek-R1-Zero 获得了显著的性能提升，如下表所示。

OpenAI O1 与 DeepSeek R1 模型的基准对比。图示改编自 DeepSeek-R1 技术报告（https://arxiv.org/abs/2501.12948）

4）纯监督微调（Pure Supervised Finetuning，SFT）与蒸馏

到目前为止，我们已经介绍了三种构建和改进推理模型的关键方法：

1. 推理时扩展（Inference-time scaling）：一种无需训练或修改底层模型、即可提升推理能力的技术。

2. 纯强化学习（Pure RL）：以 DeepSeek-R1-Zero 为代表，展示了在不进行监督微调的情况下，推理能力可以作为一种可学习行为自然涌现。

3. 监督微调（SFT）+ 强化学习（RL）：该方法催生了 DeepSeek 的旗舰推理模型 DeepSeek-R1。

那么，还剩下什么？答案是：模型“蒸馏（distillation）”。

令人惊讶的是，DeepSeek 还发布了一系列通过其称之为“蒸馏”的过程训练得到的小模型。然而，在 LLM 的语境下，这里的蒸馏并不一定遵循深度学习中经典的知识蒸馏方法。传统的知识蒸馏（我在我的著作《Machine Learning Q and AI》第 6 章中曾简要介绍过）通常是让一个较小的学生模型同时在一个较大教师模型的 logits 输出以及一个目标数据集上进行训练。

而在这里，所谓的蒸馏，指的是：使用由更大 LLM 生成的 SFT 数据集，对较小的 LLM 进行指令微调。这些较小的模型包括 Llama 8B 与 70B，以及 Qwen 2.5 系列模型（0.5B 到 32B）。具体而言，用于生成这些 SFT 数据的更大模型是 DeepSeek-V3 以及 DeepSeek-R1 的一个中间检查点。事实上，用于该蒸馏过程的 SFT 数据，正是上一节中用于训练 DeepSeek-R1 的同一份数据集。

为了更清楚地说明这一过程，我在下图中高亮标出了蒸馏对应的部分。

为什么要开发这些蒸馏模型？在我看来，主要有两个关键原因：

1. 更小的模型更高效。这意味着它们的运行成本更低，同时也可以在配置更低的硬件上运行，这使得它们对许多研究人员和像我这样的技术爱好者而言尤为有吸引力。

2. 纯 SFT 的案例研究。这些蒸馏模型提供了一个有趣的基准，用来展示：在不使用强化学习的情况下，单靠纯监督微调（SFT）究竟可以将模型能力推进到什么程度。

下表比较了这些蒸馏模型与其他流行模型，以及 DeepSeek-R1-Zero 和 DeepSeek-R1 之间的性能差异。

蒸馏模型与非蒸馏模型的基准对比。图示改编自 DeepSeek-R1 技术报告（https://arxiv.org/abs/2501.12948）

正如我们所看到的，蒸馏模型的性能明显弱于 DeepSeek-R1，但在模型规模小了几个数量级的前提下，它们相对于 DeepSeek-R1-Zero 却表现得异常强大。同样值得注意的是，这些模型相较于 o1 mini 的表现也非常出色（我猜测 o1-mini 本身可能也是 o1 的一个类似蒸馏版本）。

在用结论收尾这一节之前，还有一个值得一提的有趣对比。DeepSeek 团队测试了：在 DeepSeek-R1-Zero 中观察到的推理涌现行为，是否也会出现在更小的模型中。为此，他们将 DeepSeek-R1-Zero 中采用的同一套纯 RL 方法，直接应用到了 Qwen-32B 上。

该实验的结果总结如下表，其中 QwQ-32B-Preview 作为一个参考推理模型，它基于 Qwen 团队开发的 Qwen 2.5 32B（我认为其训练细节从未公开披露）。这一对比为“仅凭纯 RL 是否足以在远小于 DeepSeek-R1-Zero 的模型中诱导出推理能力”这一问题，提供了额外的洞见。

在更小的 32B 模型上，蒸馏与 RL 的基准对比。图示改编自 DeepSeek-R1 技术报告（https://arxiv.org/abs/2501.12948）

有意思的是，结果表明：对于较小模型而言，蒸馏的效果远优于纯强化学习。这与这样一种观点相一致：单靠 RL 可能不足以在这一规模的模型中诱导出强大的推理能力；而在高质量推理数据上的监督微调（SFT），在小模型场景下可能是一种更有效的策略。

为了完整起见，如果表格中还能加入以下对比，将会更有价值：

1. 使用 SFT + RL 训练的 Qwen-32B，类似于 DeepSeek-R1 的开发方式。这将有助于判断：在纯 RL 与纯 SFT 之外，将 RL 与 SFT 结合究竟还能带来多大的提升空间。

2. 仅使用纯 SFT 训练的 DeepSeek-V3，类似于蒸馏模型的构建方式。这将有助于直接比较：RL + SFT 相较于纯 SFT 的效果究竟提升了多少。

结论

在本节中，我们探讨了构建和改进推理模型的四种不同策略：

1. 推理时扩展（Inference-time scaling） 不需要额外训练，但会增加推理成本，随着用户数量或查询量的增长，使大规模部署变得更加昂贵。尽管如此，对于提升已经较为强大的模型性能而言，它仍然是一个显而易见的选择。我强烈怀疑 o1 利用了推理时扩展，这也有助于解释为什么与 DeepSeek-R1 相比，它在单 token 成本上更高。

2. 纯强化学习（Pure RL） 在研究层面上很有吸引力，因为它为理解“推理作为一种涌现行为”提供了洞见。然而，在实际的模型开发中，RL + SFT 才是更优的选择，因为它能够产出更强的推理模型。我也强烈怀疑 o1 是通过 RL + SFT 进行训练的。更具体地说，我认为 o1 起始于一个比 DeepSeek-R1 更弱、更小的基础模型，但通过 RL + SFT 以及推理时扩展弥补了这一差距。

3. RL + SFT 是构建高性能推理模型的关键方法。DeepSeek-R1 是一个很好的蓝图，展示了这一过程应当如何实施。

4. 蒸馏（Distillation） 是一种颇具吸引力的方法，尤其适用于创建更小、更高效的模型。然而，其局限性在于：蒸馏并不会推动创新，也无法产出下一代推理模型。例如，蒸馏始终依赖于一个已有的、更强的模型来生成监督微调（SFT）数据。

我接下来最期待看到的一点，是将 RL + SFT（方法 3） 与 推理时扩展（方法 1） 相结合。这很可能正是 OpenAI 的 o1 所采用的方式，只不过它可能基于一个比 DeepSeek-R1 更弱的基础模型，这也解释了为什么 DeepSeek-R1 在保持相对较低推理成本的同时，仍然能够取得如此出色的性能。

关于 DeepSeek R1 的一些想法

近几周，许多人向我询问我对 DeepSeek-R1 模型的看法。简而言之，我认为它们是一项了不起的成就。作为一名研究工程师，我尤其欣赏那份详尽的技术报告，它提供了关于其方法论的深入见解，让我能够从中学习。

其中最令人着迷的一点，是推理如何作为一种行为从纯强化学习（RL）中涌现出来。此外，DeepSeek 在一个宽松的开源 MIT 许可证下将其模型开源，也令人印象深刻；该许可证的限制甚至比 Meta 的 Llama 模型还要少。

它与 o1 相比如何？

DeepSeek-R1 是否优于 o1？我会说，两者大致处在同一水平。然而，真正引人注目的是，DeepSeek-R1 在推理时效率更高。这表明，DeepSeek 很可能在训练阶段投入了更多资源，而 OpenAI 在 o1 上可能更多依赖了推理时扩展。

不过，直接比较 o1 和 DeepSeek-R1 仍然相当困难，因为 OpenAI 并未披露太多关于 o1 的信息。例如，我们并不知道：

• o1 是否同样采用了专家混合（Mixture of Experts，MoE）架构？
• o1 的模型规模有多大？
• o1 是否可能只是 GPT-4o 的一个略微改进版本，仅使用了极少量的 RL + SFT，而主要依赖大量的推理时扩展？

在不了解这些细节的情况下，任何直接对比都不可避免地变成“苹果对橘子”的比较。

DeepSeek-R1 的训练成本

另一个讨论焦点是 DeepSeek-R1 的开发成本。有些人提到大约 600 万美元的训练费用，但他们很可能将 DeepSeek-V3（去年 12 月发布的基础模型）与 DeepSeek-R1 混为一谈。

这 600 万美元的估算，基于每 GPU 小时 2 美元的假设价格，以及完成 DeepSeek-V3 最终一次训练所需的 GPU 小时数——这一点最早是在 2024 年 12 月被讨论的。

然而，DeepSeek 团队从未公开披露 R1 所需的具体 GPU 小时数或开发成本，因此任何成本估计都仍然只是纯粹的猜测。

无论如何，DeepSeek-R1 无疑是开放权重推理模型领域中的一个重要里程碑，而其在推理阶段的高效率，也使其成为 OpenAI o1 的一个颇具吸引力的替代方案。

在有限预算下开发推理模型

即使从像 DeepSeek-V3 这样的开源权重基础模型起步，开发一个达到 DeepSeek-R1 水平的推理模型，也很可能需要数十万到数百万美元的投入。这对于预算有限的研究人员或工程师来说，难免会令人感到沮丧。

好消息是：蒸馏可以走得很远

幸运的是，模型蒸馏提供了一种更具成本效益的替代方案。DeepSeek 团队通过其 R1-Distill 模型展示了这一点：尽管这些模型在规模上远小于 DeepSeek-R1，但却取得了出乎意料地强的推理性能。不过，即便如此，这种方法也并非完全低成本。他们的蒸馏过程使用了 80 万条 SFT 样本，这仍然需要相当可观的计算资源。

有意思的是，就在 DeepSeek-R1 发布前几天，我偶然看到了一篇关于 Sky-T1 的文章。这是一个非常引人注目的项目：一个小型团队仅使用 1.7 万条 SFT 样本，就训练了一个开源权重的 32B 模型。总成本是多少？仅 450 美元，甚至低于大多数 AI 学术会议的注册费用。

这个例子突出了一个事实：尽管大规模训练依然昂贵，但规模更小、目标更明确的微调工作，依然可以以极低的成本取得令人印象深刻的成果。

图示来自文章《Sky-T1: Train your own O1 preview model within $450》，https://novasky-ai.github.io/posts/sky-t1/

根据其基准测试结果，Sky-T1 的整体表现大致与 o1 相当——考虑到其极低的训练成本，这一点尤为令人印象深刻。

预算受限下的纯 RL：TinyZero

Sky-T1 主要聚焦于模型蒸馏，而我还注意到在“纯 RL”方向上也有一些非常有趣的工作。其中一个值得一提的例子是 TinyZero，这是一个 30 亿参数的模型，复现了 DeepSeek-R1-Zero 的方法（顺带一提，它的训练成本不到 30 美元）。

令人惊讶的是，即便只有 30 亿参数，TinyZero 也展现出了一定程度的自验证（self-verification）涌现能力，这进一步支持了这样一种观点：即使在小模型中，推理能力也可以通过纯强化学习自然涌现。

TinyZero 的代码仓库提到，其研究报告仍在撰写中，我也会持续关注后续的更多细节。

来自 TinyZero 仓库的一张图（https://github.com/Jiayi-Pan/TinyZero），展示了模型具备自验证能力。（如果能同时展示基础模型的响应进行对比，可能会更有意思）

上述两个项目表明：即便在预算有限的情况下，围绕推理模型依然可以开展非常有价值的研究工作。这两种方法都在复现 DeepSeek-R1 的思路，但一个侧重于纯 RL（TinyZero），另一个侧重于纯 SFT（Sky-T1）。如果能进一步探索如何在此基础上继续扩展这些思路，将会非常有意思。

超越传统 SFT：Journey Learning（“旅程学习”）

去年我还接触到了一种特别有趣的方法，发表于论文《O1 Replication Journey: A Strategic Progress Report – Part 1》。尽管标题如此，这篇论文实际上并没有真正复现 o1，而是提出了一种改进蒸馏（即纯 SFT）过程的不同思路。

该论文的核心思想是，用“旅程学习（journey learning）”来替代“捷径学习（shortcut learning）”。

• 所谓捷径学习，是指传统指令微调中的常见做法：模型只在正确的解题路径上进行训练。
• 而旅程学习则不同，它同时包含错误的解题路径，使模型能够从错误中学习。

这种方法在某种程度上与 TinyZero 的纯 RL 训练中观察到的自验证能力相呼应，但它完全聚焦于通过 SFT 来改进模型。通过让模型接触错误的推理路径及其修正过程，旅程学习也可能强化模型的自我纠错能力，从而以这种方式提升推理模型的可靠性。

旅程学习与传统捷径学习的对比示意图：在 SFT 数据中包含错误的解题路径。标注图来自《O1 Replication Journey: A Strategic Progress Report – Part 1》（https://arxiv.org/abs/2410.18982）

这可能是一个非常令人兴奋的未来研究方向，尤其适用于低预算的推理模型开发场景——在这些场景下，基于 RL 的方法在计算成本上可能并不现实。

总之，目前在推理模型方向上正在发生大量有趣的研究工作，我也相信在接下来的几个月里，我们将看到更多令人兴奋的进展。

本杂志是一个个人热情驱动的项目，你的支持有助于它持续发展。

如果你愿意支持我的工作，可以考虑我的书 《Build a Large Language Model (From Scratch)》，或它的续作 《Build a Reasoning Model (From Scratch)》。（我相信你会从中收获颇多；它们以你在其他地方很难看到的深度，系统讲解了 LLM 的工作原理。）

感谢你的阅读，也感谢你对独立研究的支持。