欣朵的日志

AI 的学习，不一定只能靠训练模型

最近看到一篇很有意思的文章：《Learning Beyond Gradients》。

https://trinkle23897.github.io/learning-beyond-gradients/#zh

作者提出了一个非常大胆，但又越来越现实的观点：AI 的“学习”，不一定只能靠梯度下降和训练神经网络。未来的 AI，也可能通过持续修改代码、积累经验、维护规则系统来学习。

这听上去像是在“反深度学习”，但实际上并不是。相反，这篇文章真正有价值的地方在于，它重新定义了“学习”到底是什么。

为什么我们会默认“学习 = 训练模型”？

过去十几年，AI 几乎都是围绕同一种范式展开：

数据 -> 神经网络 -> 梯度下降 -> 更新权重

无论是 ChatGPT、图像识别还是语音识别，底层逻辑都差不多。模型通过大量数据不断调整参数，让输出越来越接近目标答案。

于是慢慢地，我们会默认认为：AI 的学习，本质上就是修改神经网络权重。

但作者提出了一个问题：如果 AI 的学习对象，不是模型参数，而是一整个软件系统呢？

一次很特殊的实验

文章里提到了一类非常有意思的实验。研究者没有训练神经网络策略，而是直接让 Coding Agent 写代码策略。

例如：


   
   if ball_x > paddle_x:
    move_right()
else:
    move_left()

然后不断循环：

• 运行游戏
• 观察失败
• 修改代码
• 再次运行
• 继续调整

结果令人意外。在一些强化学习环境中，这种“纯代码策略”居然能达到很高的分数，甚至在 Breakout 里达到了理论最高分。

这里最重要的并不是“规则很强”，而是 Agent 并不是在训练模型，它是在持续维护一个软件系统。

Heuristic Learning：把“学习”变成系统演化

作者把这种方式称为 Heuristic Learning（启发式学习），简称 HL。它维护出来的系统，叫 Heuristic System（启发式系统），简称 HS。

这个系统里包含的东西，不只是代码。还包括日志、回放、测试、失败记录、实验结果、版本 diff、状态分析，以及下一轮优化方向。

也就是说，AI 的“学习结果”，不再只是神经网络里的参数，而是一整套不断进化的软件工程系统。

传统强化学习的流程更像这样：

环境反馈 -> reward -> 更新模型参数

而 HL 更像：

环境反馈
-> agent 分析问题
-> 修改代码
-> 增加测试
-> 记录失败原因
-> 重新运行
-> 总结经验

两者最大的区别在于，Deep RL 的知识隐藏在模型权重里，而 HL 的知识是显式存在的。

比如：

• 回归测试
• 固定 seed 回放
• 失败视频
• golden trace
• 历史 diff
• bug 总结

这些都会变成系统长期保留下来的“记忆”。

为什么以前没人做成？

因为过去维护规则系统太痛苦。

很多老程序员都见过这种系统：


   
   if xxx:
    ...
elif xxx:
    ...
elif xxx:
    ...

几年后，没有人敢删代码，因为你根本不知道删掉之后会坏哪里。

所以过去专家系统最大的问题，从来不是“规则没用”，而是人类维护不起。

但现在不一样了。因为 Coding Agent 出现了。

过去，增加规则的成本非常高；现在，Agent 可以自动跑测试、自动看日志、自动分析失败、自动修代码、自动比较版本，甚至自动生成总结。

于是，维护复杂规则系统的成本，开始快速下降。

这也是这篇文章真正想表达的东西：过去很多无法扩展的系统，可能不是因为理论错了，而是因为维护成本太高。而 Agent，正在改变这件事。

这其实特别像真正的软件工程

文章里有一个我觉得特别重要的隐含观点。

传统神经网络学习，更像是“把所有经验压进一个黑盒参数空间”。

而 HL 更像是“持续维护一个长期演化的软件项目”。

它不是“训练一个模型然后结束”，而是：

观察问题
-> 修复问题
-> 增加测试
-> 防止回归
-> 沉淀经验
-> 持续迭代

这已经非常接近真正的软件开发流程了。

它真的能取代神经网络吗？

作者并没有这么说。文章里明确提到，HL 不适合解决所有问题。

例如图像识别、复杂感知、高维连续表征，这些仍然是神经网络最擅长的领域。

所以更现实的未来，其实是混合架构：

模块名称	负责内容
神经网络	感知、分类、理解
HL 系统	规则、测试、记忆、恢复
Agent	观察反馈并持续改进系统

简单解析：

• 神经网络充当了系统的“感官”和“直觉”。
• HL 系统则提供了“理性”框架，负责边界控制。
• Agent 是闭环的核心，确保系统不是静态的，而是具备自我进化的能力。

换句话说，未来 AI 可能不是一个模型，而是一个由模型、规则系统、测试系统、长期记忆、回放系统共同组成的“活的软件工程系统”。

为什么这件事值得关注？

因为它可能意味着，AI 的“学习介质”正在改变。

过去：

学习 = 更新参数

未来：

学习 = 修改系统

这其实是一个非常大的思想变化。

它意味着：

• 测试也能成为记忆
• 日志也能成为经验
• 回放也能成为学习数据
• 软件架构本身也能持续进化

而 Coding Agent 的角色，也会从“代码生成器”，变成“长期系统维护者”。

最后

这篇文章真正有意思的地方，不是它证明了“规则比神经网络强”。

而是它提出了一种新的可能：

当 Coding Agent 足够强时，代码本身，也可以成为一种“可学习介质”。

未来 AI 的进步，可能不只是“训练更大的模型”，还可能是 Agent 持续维护一个会自我演化的软件系统。

如果觉得内容不错，欢迎你点一下「在看」，或是将文章分享给其他有需要的人^^

相关好文推荐：

一种快速判别产品AI含量的黄金指标，帮你远离披着AI外皮的传统软件公司

飞书会取代微信吗？

AI 时代的软件与软件公司应该长什么样？

引入嵌套学习（Nested Learning）：一种用于持续学习的全新机器学习范式

如何构建多智能体研究系统

AI电池人实验室认识世界

欣朵的日志

加载中...

Home

Archive

Pages

Single

Contact

Latest Tweets

欣朵的日志

最新文章

AI 的学习，不一定只能靠训练模型

为什么很多人越学越多，脑子反而越来越乱？

AI自助餐倒闭潮开始？

两种AI，两种设计观

为什么你明明每个知识点都会，一综合就不会了？

AI 的学习，不一定只能靠训练模型

0条留言

留言

标签

归档

个人公号

个人星球