2025年 LLM 年度回顾 | karpathy

2025年是 LLM（大型语言模型）取得长足进步且充满变数的一年。以下列出的是我个人认为值得注意且稍感意外的“范式转变”清单——即那些在概念上改变了格局并令我印象深刻的事物。

1. 基于可验证奖励的强化学习 (RLVR)

在2025年初，所有实验室的 LLM 生产技术栈看起来大概是这样的：

预训练 (GPT-2/3, ～2020) → 监督微调 (InstructGPT, ～2022) → 基于人类反馈的强化学习 (RLHF, ～2022)

在很长一段时间里，这是训练生产级 LLM 的稳定且经受过验证的配方。

到了2025年，基于可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards, RLVR) 成为了这一组合中事实上的新增主要阶段。

通过在许多环境（例如数学/代码谜题）中针对可自动验证的奖励来训练 LLM，这些模型自发地发展出了人类看起来像是“推理”的策略——它们学会了将问题解决分解为中间计算步骤，并学会了许多用于反复推敲以解决问题的策略（参考 DeepSeek R1 论文中的例子）。

这些策略在以前的范式中是很难实现的，因为对于 LLM 来说，最佳的推理轨迹和纠错方式是什么并不清晰——它必须通过针对奖励的优化来找到适合自己的方法。

与 SFT（监督微调）和 RLHF 阶段不同（这两个阶段相对较薄/较短，计算上属于轻微的微调），RLVR 涉及针对客观（不可被操纵）的奖励函数进行训练，这允许进行更长时间的优化。

运行 RLVR 被证明能提供很高的“能力/美元”性价比，它吞噬了原本计划用于预训练的算力。

因此，2025年的大部分能力进步都是由 LLM 实验室消化这一新阶段的红利所定义的，总体上我们看到了规模相似的模型，但 RL 运行的时间长了很多。

这一新阶段独有的特点是，我们获得了一个全新的旋钮（以及相关的缩放定律），可以通过生成更长的推理轨迹和增加“思考时间”来控制作为测试时计算量函数的能力。

OpenAI o1（2024年底）是 RLVR 模型的首次演示，但 o3 的发布（2025年初）是一个明显的拐点，你能直观地感受到其中的差异。

2. 幽灵 vs 动物 / 参差不齐的智能 (Jagged Intelligence)

2025年是我（我想整个行业也是）第一次开始更直观地内化 LLM 智能的“形状”。

我们不是在“进化/培育动物”，我们是在“召唤幽灵”。

LLM 技术栈的一切都不同（神经网络架构、训练数据、训练算法，尤其是优化压力），因此我们在智能空间中得到非常不同的实体也就不足为奇了，用动物的视角来思考它们是不恰当的。

从监督的比特位来看，人类神经网络是为了在丛林部落中的生存而优化的，但 LLM 神经网络是为了模仿人类文本、在数学谜题中收集奖励以及在 LM Arena（大模型竞技场）中获得人类的点赞而优化的。

随着可验证领域允许 RLVR 的应用，LLM 的能力在这些领域附近“突增”，总体上表现出有趣的参差不齐 (jagged) 的性能特征——它们同时是天才的博学家，又是一个困惑且认知受挑战的小学生，离被越狱攻击窃取你的数据只差几秒钟。

（人类智能：蓝色；AI 智能：红色。我很喜欢这个版本的梗图〔很抱歉我找不到它在 X 上的原始发布来源〕，因为它指出：人类智能同样是“参差不齐”的，只是以另一种不同的方式呈现）

与此相关的是我在2025年对基准测试 (benchmarks) 普遍的冷漠和信任丧失。

核心问题在于，基准测试几乎在构建上就是可验证的环境，因此立即容易受到 RLVR 及其通过合成数据生成进行的较弱形式的影响。

在典型的“刷榜 (benchmaxxing)”过程中，LLM 实验室的团队不可避免地会构建与基准测试所占据的嵌入空间小块相邻的环境，并生长出“锯齿”来覆盖它们。

在测试集上训练成了一门新的艺术。

如果粉碎了所有基准测试却仍然没有实现 AGI（通用人工智能），那会是什么样子？

关于本节的话题，我在这里写了更多内容：

• Animals vs. Ghosts (动物 vs 幽灵)
https://karpathy.bearblog.dev/animals-vs-ghosts/
• Verifiability (可验证性)
https://karpathy.bearblog.dev/verifiability/
• The Space of Minds (思维空间)
https://karpathy.bearblog.dev/the-space-of-minds

3. Cursor / LLM 应用的新层级

关于 Cursor，我觉得最值得注意的（除了它今年陨石般的崛起）是它令人信服地揭示了“LLM 应用”的一个新层级——人们开始谈论“X 领域的 Cursor”。

正如我在今年的 Y Combinator 演讲中所强调的（https://www.youtube.com/watch?v=LCEmiRjPEtQ），像 Cursor 这样的 LLM 应用为特定的垂直领域打包并编排 LLM 调用：

• 它们进行“上下文工程”
• 它们在后台编排多个 LLM 调用，将其串联成日益复杂的 DAG（有向无环图），并在性能和成本权衡之间进行仔细平衡。
• 它们为回路中的人类提供特定于应用程序的 GUI（图形用户界面）
• 它们提供一个“自主性滑块”

2025年有很多关于这个新应用层有多“厚”的讨论。LLM 实验室会捕获所有应用程序，还是 LLM 应用会有绿色的牧场？

我个人怀疑 LLM 实验室将倾向于培养出具有一般能力的“大学生”，但 LLM 应用将通过提供私有数据、传感器、执行器和反馈循环，组织、微调并真正驱动这些“大学生”团队成为特定垂直领域的部署专业人员。

4. Claude Code / 生活在你电脑里的 AI

Claude Code (CC) 成为 LLM 智能体 (Agent) 样貌的第一个令人信服的演示——它以一种循环的方式将工具使用和推理串联起来，以解决扩展性问题。

此外，CC 对我来说值得注意的是，它运行在你的计算机上，拥有你的私有环境、数据和上下文。

我认为 OpenAI 跑偏了，因为他们早期的 codex / agent 工作集中在从 ChatGPT 编排的容器中的云部署，而不是简单的 localhost（本地主机）。

虽然在云端运行的智能体集群感觉像是“AGI 的终局”，但我们生活在一个能力参差不齐的中间且起飞缓慢的世界中，直接在开发者的计算机上运行智能体更有意义。

请注意，重要的主要区别不在于“AI ops”在哪里运行（云端、本地或其他地方），而在于其他一切——已经存在并启动的计算机、其安装、上下文、数据、机密、配置以及低延迟交互。

Anthropic 弄对了这种优先顺序，并将 CC 打包成一种令人愉悦、极简的 CLI（命令行界面）形式，改变了 AI 的样子——它不再只是你像访问 Google 那样去的一个网站，它是“生活”在你电脑里的一个小精灵/幽灵。

这是一种全新的、独特的 AI 交互范式。

5. Vibe coding (氛围编码/凭感觉写代码)

2025年是 AI 跨越能力门槛的一年，只需通过英语即可构建各种令人印象深刻的程序，甚至让人忘记代码的存在。

有趣的是，我在那条完全不知道会发展到何种程度的“淋浴想法”推文中创造了“vibe coding”这个词 :)。

有了 vibe coding，编程不再严格保留给训练有素的专业人员，它是任何人都可以做的事情。

在这种能力下，它是我在《赋予人民力量：LLM 如何翻转技术扩散的剧本》（https://karpathy.bearblog.dev/power-to-the-people/）一文中所写内容的又一个例子，即（与迄今为止所有其他技术形成鲜明对比）普通人从 LLM 中受益远多于专业人员、公司和政府。

但 vibe coding 不仅赋予普通人接触编程的权力，它还赋予训练有素的专业人员编写更多（vibe coded）软件的权力，而这些软件否则永远不会被编写出来。

在 nanochat 中，我用 Rust “vibe code”了我自己的定制高效 BPE 分词器，而不是必须采用现有的库或在那一水平上学习 Rust。

今年我 vibe code 了许多项目，作为我希望存在的某种东西的快速应用演示（例如，参见 menugen、llm-council、reader3、HN time capsule）。

而且我还 vibe code 了整个临时应用程序，只为了找到一个错误，因为为什么不呢——代码突然变得免费、临时、可塑、一次性使用后可丢弃。

Vibe coding 将改造 (terraform) 软件并改变职位描述。

6. Nano banana / LLM GUI

Google Gemini Nano banana 是2025年最令人难以置信、最具范式转变意义的模型之一。

在我的世界观中，LLM 是下一个主要的计算范式，类似于1970年代、80年代的计算机等。因此，我们将看到出于根本相似原因的类似创新。

我们将看到个人计算、微控制器（认知核心）或互联网（智能体网络）等的等价物。特别是，在 UIUX（用户界面/体验）方面，与 LLM “聊天”有点像在1980年代向计算机控制台发出命令。

文本是计算机（和 LLM）的原始/偏好数据表示，但它不是人类偏好的格式，尤其是在输入端。人们实际上不喜欢阅读文本——它既慢又费力。

相反，人们喜欢以视觉和空间的方式消费信息，这就是为什么在传统计算中发明了 GUI。

同样，LLM 应该以我们偏好的格式与我们交谈——通过图像、信息图表、幻灯片、白板、动画/视频、Web 应用程序等。

这方面的早期和当前版本当然是像 emoji 和 Markdown 这样的东西，它们是“打扮”和视觉布局文本的方法，以便通过标题、粗体、斜体、列表、表格等更容易地消费。

但是谁实际上去构建 LLM GUI 呢？

在这个世界观中，nano banana 是这种未来可能样貌的第一个早期暗示。

重要的是，它值得注意的一个方面是，它不仅仅关于图像生成本身，它是关于来自文本生成、图像生成和世界知识的联合能力，所有这些都纠缠在模型权重中。

TLDR (太长不看版)

2025年是 LLM 令人兴奋且稍感意外的一年。

LLM 正在作为一种新型智能涌现，同时比我预期的要聪明得多，但也比我预期的要笨得多。

无论如何，它们非常有用，而且我认为即便以目前的能力，整个行业也尚未挖掘出它们 10% 的潜力。

与此同时，有太多的想法可以尝试，从概念上讲，这个领域感觉非常广阔。

正如我今年早些时候在 Dwarkesh 播客中提到的，我同时（表面上矛盾地）相信我们将看到快速且持续的进步，但仍有大量工作要做。

系好安全带。

如果觉得内容不错，欢迎你点一下「在看」，或是将文章分享给其他有需要的人^^

相关好文推荐：

让 AI 真正拥有“长时记忆”的开端

一次关于未来智能的深度对话

假如科学被做成了自动售卖机

聊一聊OpenAI新发布的Apps SDK

苦涩的教训

特朗普签署AI行动计划，AI全球赛跑加速，中国准备好了吗？

Flux Context Dev：一句话玩转AI修图，免费开源神器！

AI电池人实验室白话大模型认识世界记忆

欣朵的日志

加载中...

Home

Archive

Pages

Single

Contact

Latest Tweets

欣朵的日志

最新文章

从“努力”的幻像走向“专业”的觉醒

超越 RAG 以实现智能体记忆：通过解耦和聚合进行检索 | ICML

如何在现实压力下不毁掉学习者身份？

软件工厂与智能代理时代 | StrongDM AI

失败不是问题，崩溃才是