当 AI 开始自己做实验

最近，OpenAI 前研究负责人 Andrey Karpathy 在 X 上分享了一项名为 “自动研究”（autoresearch） 的实验经历。

他让一个 AI Agent 在自己的开源项目 nanochat 上持续运行了大约两天。

这个 Agent 在一个 12 层深度（depth=12） 的模型上自动修改代码、运行实验并分析结果。

实验的结果令人印象深刻，Agent 在大约 700 次自主尝试 中找到了 约 20 个有效改进点。

更重要的是，这些改进表现出极强的 叠加效应（additive）。

当 Karpathy 将这些改进应用到 24 层深度（depth=24） 的更大模型时，优化效果依然有效。

通过汇总这些自动发现的改进方案，排行榜上的 “Time to GPT-2” 指标从 2.02 小时缩短到了 1.80 小时。

这意味着模型训练效率获得了约 11% 的显著提升。

Karpathy 坦言，即便是对于他这样一个有着 20 年经验、且已经手动优化过该项目的专家来说，AI 的表现依然超出了预期。

Karpathy 的 AI 自动研究实验过程

Karpathy 在三天前启动了这个针对 nanochat 的自动化调优实验。

在过去，神经网络的迭代优化通常完全由人类研究员手动完成。

研究员需要提出想法、编写代码、观察 验证集 Loss，并根据结果规划下一步行动。

而这一次，Agent 完整接管了这套 端到端的工作流。

它不仅在两天内完成了约 700 次代码修改与实验记录，还表现出了真正的规划能力。

它能够根据前一次实验的序列结果，自主构思并执行下一轮实验计划。

虽然这目前还算不上颠覆性的科学研究，但它证明了 AI 可以自主发现人类在手动调优时遗漏的 真实优化点。

这一过程揭示了机器学习研究正在从“人力密集型”向 “工程自动化” 转变。

AI 发现的关键优化细节

Agent 发现的改进并不是凭空想象的，而是针对训练工程中存在的具体漏洞。

在 QKnorm 方面，Agent 发现 Karpathy 遗漏了 缩放乘法器（scaler multiplier）。

这导致了模型的 注意力分布过于弥散（diffuse），而 Agent 找到了合适的乘法器将注意力 “锐化”（sharpen）。

在 Value Embeddings 方面，Agent 发现该模块非常契合 正则化（regularization）。

此前 Karpathy 并没有在此处应用正则项，而 Agent 的加入带来了明显的性能增益。

对于 带状注意力（banded attention），Agent 指出原有参数设置 过于保守。

在优化器设置上，Agent 发现原有的 AdamW betas 参数处于“混乱”状态。

此外，Agent 还对 权重衰减计划（weight decay schedule） 进行了精准调优。

最后，模型整体的 网络初始化（initialization） 方案也被 Agent 重新进行了优化。

这些改动单个看起来并不起眼，但累加在一起却产生了实质性的技术进步。

关于 AI 自动化研究的深层思考

Karpathy 认为，这种自动化研究模式是 所有前沿 AI 实验室的“最终 Boss 战”。

虽然在更大规模的系统上实现这一点更复杂，但这在本质上是一个 纯粹的工程问题。

未来的研发范式将是启动一个 Agent Swarm（Agent 集群）。

这些 Agent 将相互协作，在小模型上调优方案，并将最有潜力的想法推广到更大规模的模型。

人类研究员的角色将退居边缘，主要负责提供可选的指导意见。

任何可以 高效评估指标（评估函数） 的问题，都可以被纳入这套自动化研究桶中。

这预示着一种全新的科研速度：当 AI 能够 24 小时不停歇地通过搜索寻找最优解 时，技术进化的速度将不可同日而语。

这也引发了一个思考：如果你所处理的问题拥有明确的评估指标，它是否也应该交给 AI Agent 集群进行自动研究？

如果觉得内容不错，欢迎你点一下「在看」，或是将文章分享给其他有需要的人^^

相关好文推荐：

飞书会取代微信吗？

通过元学习Agent记忆设计学习如何持续学习 | Yiming Xiong

超越 RAG 以实现智能体记忆：通过解耦和聚合进行检索 | ICML

你的工作不会消失，它只是不断在你身边逐渐萎缩 | Jan Tegze

AI 时代的软件与软件公司应该长什么样？

意图即生产力：重新定义产品与开发的边界

Embedding Model 如何“学会”语义相似？

Embedding Model 是什么？

OpenClawd的运作原理 | Hesamation

一个使用 OpenRouter 的 1 万亿令牌实证研究 | OpenRouter AI

Moltbot（Clawdbot）做对了什么？

一个月内把编码主力交给 Agent 的真实体验 | karpathy

从 DeepSeek V3 到 Mistral 3 Large：现代大语言模型（LLM）架构设计概览（三）| Sebastian Raschka

从 DeepSeek V3 到 Mistral 3 Large：现代大语言模型（LLM）架构设计概览（二）| Sebastian Raschka

从 DeepSeek V3 到 Mistral 3 Large：现代大语言模型（LLM）架构设计概览（一）| Sebastian Raschka

Agent 设计模式 | Lance

递归语言模型（Recursive Language Models） | Alex Zhang

Manus 中的上下文工程 | Lance

引入嵌套学习（Nested Learning）：一种用于持续学习的全新机器学习范式

如何构建多智能体研究系统

AI电池人实验室白话大模型认识世界

欣朵的日志

加载中...

Home

Archive

Pages

Single

Contact

Latest Tweets

欣朵的日志

最新文章

为什么清晰的目标才是学习的加速器？

当 AI 开始自己做实验

长期环境如何塑造一个人的人格与未来？

飞书会取代微信吗？

如何主动设计“学习环境工程”？

当 AI 开始自己做实验

Karpathy 的 AI 自动研究实验过程

AI 发现的关键优化细节

关于 AI 自动化研究的深层思考

0条留言

留言

标签

归档

个人公号

个人星球