当 AI 开始自己做实验
最近,OpenAI 前研究负责人 Andrey Karpathy 在 X 上分享了一项名为 “自动研究”(autoresearch) 的实验经历。
他让一个 AI Agent 在自己的开源项目 nanochat 上持续运行了大约 两天。
这个 Agent 在一个 12 层深度(depth=12) 的模型上自动修改代码、运行实验并分析结果。
实验的结果令人印象深刻,Agent 在大约 700 次自主尝试 中找到了 约 20 个有效改进点。
更重要的是,这些改进表现出极强的 叠加效应(additive)。
当 Karpathy 将这些改进应用到 24 层深度(depth=24) 的更大模型时,优化效果依然有效。
通过汇总这些自动发现的改进方案,排行榜上的 “Time to GPT-2” 指标从 2.02 小时缩短到了 1.80 小时。
这意味着模型训练效率获得了约 11% 的显著提升。
Karpathy 坦言,即便是对于他这样一个有着 20 年经验、且已经手动优化过该项目的专家来说,AI 的表现依然超出了预期。
Karpathy 的 AI 自动研究实验过程
Karpathy 在三天前启动了这个针对 nanochat 的自动化调优实验。
在过去,神经网络的迭代优化通常完全由人类研究员手动完成。
研究员需要提出想法、编写代码、观察 验证集 Loss,并根据结果规划下一步行动。
而这一次,Agent 完整接管了这套 端到端的工作流。
它不仅在两天内完成了约 700 次代码修改与实验记录,还表现出了真正的规划能力。
它能够根据前一次实验的序列结果,自主构思并执行下一轮实验计划。
虽然这目前还算不上颠覆性的科学研究,但它证明了 AI 可以自主发现人类在手动调优时遗漏的 真实优化点。
这一过程揭示了机器学习研究正在从“人力密集型”向 “工程自动化” 转变。
AI 发现的关键优化细节
Agent 发现的改进并不是凭空想象的,而是针对训练工程中存在的具体漏洞。
在 QKnorm 方面,Agent 发现 Karpathy 遗漏了 缩放乘法器(scaler multiplier)。
这导致了模型的 注意力分布过于弥散(diffuse),而 Agent 找到了合适的乘法器将注意力 “锐化”(sharpen)。
在 Value Embeddings 方面,Agent 发现该模块非常契合 正则化(regularization)。
此前 Karpathy 并没有在此处应用正则项,而 Agent 的加入带来了明显的性能增益。
对于 带状注意力(banded attention),Agent 指出原有参数设置 过于保守。
在优化器设置上,Agent 发现原有的 AdamW betas 参数处于“混乱”状态。
此外,Agent 还对 权重衰减计划(weight decay schedule) 进行了精准调优。
最后,模型整体的 网络初始化(initialization) 方案也被 Agent 重新进行了优化。
这些改动单个看起来并不起眼,但累加在一起却产生了实质性的技术进步。
关于 AI 自动化研究的深层思考
Karpathy 认为,这种自动化研究模式是 所有前沿 AI 实验室的“最终 Boss 战”。
虽然在更大规模的系统上实现这一点更复杂,但这在本质上是一个 纯粹的工程问题。
未来的研发范式将是启动一个 Agent Swarm(Agent 集群)。
这些 Agent 将相互协作,在小模型上调优方案,并将最有潜力的想法推广到更大规模的模型。
人类研究员的角色将退居边缘,主要负责提供可选的指导意见。
任何可以 高效评估指标(评估函数) 的问题,都可以被纳入这套自动化研究桶中。
这预示着一种全新的科研速度:当 AI 能够 24 小时不停歇地通过搜索寻找最优解 时,技术进化的速度将不可同日而语。
这也引发了一个思考:如果你所处理的问题拥有明确的评估指标,它是否也应该交给 AI Agent 集群进行自动研究?
如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^
相关好文推荐:
通过元学习Agent记忆设计学习如何持续学习 | Yiming Xiong
超越 RAG 以实现智能体记忆:通过解耦和聚合进行检索 | ICML
你的工作不会消失,它只是不断在你身边逐渐萎缩 | Jan Tegze
一个使用 OpenRouter 的 1 万亿令牌实证研究 | OpenRouter AI
一个月内把编码主力交给 Agent 的真实体验 | karpathy
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(三)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(二)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(一)| Sebastian Raschka
递归语言模型(Recursive Language Models) | Alex Zhang

0条留言