AI 的学习,不一定只能靠训练模型

最近看到一篇很有意思的文章:《Learning Beyond Gradients》。

https://trinkle23897.github.io/learning-beyond-gradients/#zh

作者提出了一个非常大胆,但又越来越现实的观点:AI 的“学习”,不一定只能靠梯度下降和训练神经网络。未来的 AI,也可能通过持续修改代码、积累经验、维护规则系统来学习。

这听上去像是在“反深度学习”,但实际上并不是。相反,这篇文章真正有价值的地方在于,它重新定义了“学习”到底是什么。

为什么我们会默认“学习 = 训练模型”?

过去十几年,AI 几乎都是围绕同一种范式展开:

数据 -> 神经网络 -> 梯度下降 -> 更新权重

无论是 ChatGPT、图像识别还是语音识别,底层逻辑都差不多。模型通过大量数据不断调整参数,让输出越来越接近目标答案。

于是慢慢地,我们会默认认为:AI 的学习,本质上就是修改神经网络权重。

但作者提出了一个问题:如果 AI 的学习对象,不是模型参数,而是一整个软件系统呢?

一次很特殊的实验

文章里提到了一类非常有意思的实验。研究者没有训练神经网络策略,而是直接让 Coding Agent 写代码策略。

例如:


   
   
    
   
   if ball_x > paddle_x:
    move_right()
else
:
    move_left()

然后不断循环:

  • • 运行游戏
  • • 观察失败
  • • 修改代码
  • • 再次运行
  • • 继续调整

结果令人意外。在一些强化学习环境中,这种“纯代码策略”居然能达到很高的分数,甚至在 Breakout 里达到了理论最高分。

这里最重要的并不是“规则很强”,而是 Agent 并不是在训练模型,它是在持续维护一个软件系统。

Heuristic Learning:把“学习”变成系统演化

作者把这种方式称为 Heuristic Learning(启发式学习),简称 HL。它维护出来的系统,叫 Heuristic System(启发式系统),简称 HS。

这个系统里包含的东西,不只是代码。还包括日志、回放、测试、失败记录、实验结果、版本 diff、状态分析,以及下一轮优化方向。

也就是说,AI 的“学习结果”,不再只是神经网络里的参数,而是一整套不断进化的软件工程系统。

传统强化学习的流程更像这样:

环境反馈 -> reward -> 更新模型参数

而 HL 更像:

环境反馈
-> agent 分析问题
-> 修改代码
-> 增加测试
-> 记录失败原因
-> 重新运行
-> 总结经验

两者最大的区别在于,Deep RL 的知识隐藏在模型权重里,而 HL 的知识是显式存在的。

比如:

  • • 回归测试
  • • 固定 seed 回放
  • • 失败视频
  • • golden trace
  • • 历史 diff
  • • bug 总结

这些都会变成系统长期保留下来的“记忆”。

为什么以前没人做成?

因为过去维护规则系统太痛苦。

很多老程序员都见过这种系统:


   
   
    
   
   if xxx:
    ...
elif
 xxx:
    ...
elif
 xxx:
    ...

几年后,没有人敢删代码,因为你根本不知道删掉之后会坏哪里。

所以过去专家系统最大的问题,从来不是“规则没用”,而是人类维护不起。

但现在不一样了。因为 Coding Agent 出现了。

过去,增加规则的成本非常高;现在,Agent 可以自动跑测试、自动看日志、自动分析失败、自动修代码、自动比较版本,甚至自动生成总结。

于是,维护复杂规则系统的成本,开始快速下降。

这也是这篇文章真正想表达的东西:过去很多无法扩展的系统,可能不是因为理论错了,而是因为维护成本太高。而 Agent,正在改变这件事。

这其实特别像真正的软件工程

文章里有一个我觉得特别重要的隐含观点。

传统神经网络学习,更像是“把所有经验压进一个黑盒参数空间”。

而 HL 更像是“持续维护一个长期演化的软件项目”。

它不是“训练一个模型然后结束”,而是:

观察问题
-> 修复问题
-> 增加测试
-> 防止回归
-> 沉淀经验
-> 持续迭代

这已经非常接近真正的软件开发流程了。

它真的能取代神经网络吗?

作者并没有这么说。文章里明确提到,HL 不适合解决所有问题。

例如图像识别、复杂感知、高维连续表征,这些仍然是神经网络最擅长的领域。

所以更现实的未来,其实是混合架构:

模块名称
负责内容
神经网络
感知、分类、理解
HL 系统
规则、测试、记忆、恢复
Agent
观察反馈并持续改进系统

简单解析:

  • • 神经网络充当了系统的“感官”和“直觉”。
  • • HL 系统则提供了“理性”框架,负责边界控制。
  • • Agent 是闭环的核心,确保系统不是静态的,而是具备自我进化的能力。

换句话说,未来 AI 可能不是一个模型,而是一个由模型、规则系统、测试系统、长期记忆、回放系统共同组成的“活的软件工程系统”。

为什么这件事值得关注?

因为它可能意味着,AI 的“学习介质”正在改变。

过去:

学习 = 更新参数

未来:

学习 = 修改系统

这其实是一个非常大的思想变化。

它意味着:

  • • 测试也能成为记忆
  • • 日志也能成为经验
  • • 回放也能成为学习数据
  • • 软件架构本身也能持续进化

而 Coding Agent 的角色,也会从“代码生成器”,变成“长期系统维护者”。

最后

这篇文章真正有意思的地方,不是它证明了“规则比神经网络强”。

而是它提出了一种新的可能:

当 Coding Agent 足够强时,代码本身,也可以成为一种“可学习介质”。

未来 AI 的进步,可能不只是“训练更大的模型”,还可能是 Agent 持续维护一个会自我演化的软件系统。

如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^

相关好文推荐:

一种快速判别产品AI含量的黄金指标,帮你远离披着AI外皮的传统软件公司

飞书会取代微信吗?

AI 时代的软件与软件公司应该长什么样?

引入嵌套学习(Nested Learning):一种用于持续学习的全新机器学习范式

如何构建多智能体研究系统

0条留言

留言