一个月内把编码主力交给 Agent 的真实体验 | karpathy
关注▲AI解忧杂货店▲ 和大家一起成
作者:Andrej Karpathy | 日期:2026年1月27日
过去几周频繁使用 Claude 编程的一些随机笔记。
编程工作流
考虑到 LLM 编程能力的最新提升,和许多人一样,我迅速从 11 月份大约 80% 的手动+自动补全编程和 20% 的智能体编程,转变为 12 月份 80% 的智能体编程和 20% 的编辑+修饰。也就是说,我现在真的主要是在用英语编程,有点不好意思地用文字告诉 LLM 要写什么代码。这虽然有点伤自尊,但在大型“代码动作”上操作软件的能力实在是太有用了,特别是当你适应它、配置它、学会使用它,并搞清楚它能做什么和不能做什么之后。这是我近 20 年编程生涯中对基本编程工作流最大的改变,而且是在几周内发生的。我预计双位数百分比的工程师正在经历类似的事情,而普通大众对此的察觉仍处于低个位数百分比。
IDE、智能体群与可靠性
我认为目前无论是“不再需要 IDE”的炒作还是“智能体群”的炒作都过头了。模型肯定仍会犯错,如果你真的关心你的代码,你应该像看鹰一样盯着它们,并在旁边开启一个好用的大型 IDE。错误的类型已经发生了很大变化——它们不再是简单的语法错误,而是稍微粗心、仓促的初级开发人员可能会犯的那种微妙的概念错误。最常见的类别是模型会代表你做出错误的假设,并直接执行而不进行检查。它们也不处理自己的困惑,不寻求澄清,不揭示不一致之处,不提供权衡方案,在该回绝时也不回绝,而且还是有点太讨好用户了。在计划模式(plan mode)下情况会有所好转,但确实需要一种轻量级的内联计划模式。它们还非常喜欢过度复杂化代码和 API,使抽象变得臃肿,不会清理自己留下的死代码等。它们会用 1000 行代码实现一个低效、臃肿、脆弱的结构,这就需要你提醒:“额,你不能直接这样做吗?”然后它们会说“当然可以!”并立即将其删减到 100 行。它们有时仍会作为副作用更改或删除它们不喜欢或理解不够透彻的注释和代码,即使这与当前任务无关。尽管尝试通过 CLAUDE.md 中的指令进行一些简单的修复,但这些问题依然存在。尽管有这些问题,它仍然是一个巨大的整体提升,很难想象再回到手动编程。长话短说,每个人都有自己的开发流程,我目前的方式是在 Ghostty 窗口/标签页的左侧开启几个 Claude 协作(CC)会话,右侧开启 IDE 用于查看代码和手动编辑。
坚韧
看着一个智能体不懈地处理某件事是非常有趣的。它们从不疲倦,从不沮丧,它们只是不断地尝试,而人类可能早在很久以前就放弃并择日再战了。看着它在某件事上挣扎很久,然后在 30 分钟后大获全胜,这是一个“感受到 AGI”的时刻。你意识到精力耐力是工作的核心瓶颈,而有了 LLM,这个瓶颈得到了显著提升。
增速
目前尚不清楚如何衡量 LLM 辅助带来的“增速”。当然,我觉得在做本来打算做的事情时,整体速度快得多,但主要影响是我比原计划做了更多的事情,因为:1)我可以编写以前根本不值得编写的各种东西;2)我可以涉足以前由于知识/技能问题而无法处理的代码。所以这当然是增速,但可能更多的是一种扩展。
杠杆
LLM 非常擅长循环直到达到特定目标,这也是大部分“感受到 AGI”魔力所在。不要告诉它该做什么,给它成功标准,然后看着它执行。让它先写测试,然后通过测试。让它与浏览器 MCP 处于同一个循环中。先写一个极有可能是正确的朴素算法,然后要求它在保持正确性的同时进行优化。将你的方法从命令式转变为声明式,让智能体循环更久并获得杠杆作用。
趣味
我没预料到有了智能体,编程会感觉更有趣,因为大量填补空白的苦差事被移除了,剩下的则是创造性的部分。我也感觉更少被堵住或卡住(这很不爽),并且我感受到了更多的勇气,因为几乎总能与它携手合作取得一些积极进展。我也听到了其他人相反的观点;LLM 编程将根据工程师主要是喜欢编码还是主要是喜欢构建而将他们区分开来。
能力萎缩
我已经注意到,我手动编写代码的能力正慢慢开始萎缩。生成(写代码)和辨别(读代码)是大脑中不同的能力。很大程度上由于编程涉及的所有细微语法细节,即使你在编写方面有困难,你仍然可以很好地审查代码。
垃圾末日 (Slopacolypse)
我正准备迎接 2026 年,这是 GitHub、Substack、ArXiv、X/Instagram 以及一般所有数字媒体领域“垃圾末日”的一年。我们还将看到更多 AI 炒作的生产力表演(这真的可能吗?),与实际的、真正的改进并存。
问题
我脑海中的一些问题:
-
• “10倍工程师”会发生什么——平均水平和最高水平工程师之间的生产力比例会如何?这很有可能会增长很多。 -
• 武装了 LLM 后,通才是否会日益超越专才?LLM 在填补空白(微观)方面比宏观战略(宏观)要好得多。 -
• 未来的 LLM 编程感觉如何?是像玩《星际争霸》?玩《异星工厂》?还是演奏音乐? -
• 社会中有多少是被数字知识工作所瓶颈化的?
总结:这一切让我们走向何方?
LLM 智能体能力(特别是 Claude 和 Codex)在 2025 年 12 月左右跨越了某种连贯性的门槛,并在软件工程及相关领域引发了相位移动。智能部分突然感觉比其他部分领先了不少——集成(工具、知识)、新的组织工作流的需求、流程以及更广泛的传播。2026 年将是高能的一年,因为整个行业都在消化这种新能力。
https://x.com/karpathy/status/2015883857489522876
如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^
相关好文推荐:
用于线性注意力的 Gated DeltaNet | Sebastian Raschka
DeepSeek的多头潜在注意力(MLA) | Sebastian Raschka
嵌入模型检索面临严重限制 | DeepLearning.AI
理解用于评估大语言模型(LLM)的四种主要方法 | Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(三)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(二)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(一)| Sebastian Raschka
递归语言模型(Recursive Language Models) | Alex Zhang
重新构想 LLM 记忆:将上下文作为训练数据,使模型能够在测试时学习 | Nvidia
引入嵌套学习(Nested Learning):一种用于持续学习的全新机器学习范式

0条留言