你经常听说无法被 AI 替代的“品味”,真的会是人类最后的壁垒吗?
昨天我还在写4家万亿公司抢一个300亿市场,他们在赌什么?。里面提到Coding Agent 是所有 AI 能力里,离 AGI 最近的那扇门。Hassabis 管现在的阶段叫"soft self-improvement",说是 AGI 到来之前的一次彩排。
当时说这话的时候,大部分证据还来自外部。benchmark、第三方实验、公开数据。结果就在今天,Anthropic 便发布了一份报告,把彩排录像带甩了出来。
报告的名字叫《When AI builds itself》。
https://www.anthropic.com/institute/recursive-self-improvement
这份报告被报道之后,大部分人的注意力集中在两个地方。
一个是开发效率的极大提升。
截至今年5月,Anthropic 代码库里超过80%的合并代码,是 Claude 写的。不是辅助,不是提示,是直接写的。Claude Code 发布之前这个数字不到5%。从5%到80%只用了不到两年。
工程师的人均日代码合并量,是2021到2024年水平的8倍。有个员工在内部讨论里说了一句话,"我已经大概5个月没亲手写过一行代码了"。
Claude 在开放式编程任务上的成功率,6个月内从26%涨到了76%。所谓开放式任务,就是没有明确规格的。"帮我查一下这个训练崩溃是什么原因",然后 AI 自己去翻日志、跑测试、定位问题。普通人做这种事可能要两三天,Claude 做了两个小时。
代码优化实验,一年前 Claude 的平均加速是3倍,现在是52倍。人类研究者在同样的任务上,花四到八个小时能做到4倍。
这些数字看起来像是在说"AI替代程序员"这件事,已经发生了。
另一个是Anthropic有些略显黑色幽默的呼吁。
Anthropic 一边晒肌肉一边说,要是有办法让大家一起慢下来,我们愿意。
当你听到这个,不知道你的内心独白是什么?
Anthropic是不是在装?是不是在抢占道德高地?是不是只想让别人慢下来?
以上两个地方都在讨论一个外部的问题:技术进步有多快,公司该怎么管。
我更感兴趣的,是报告里一段被很多人略过去的话。
Anthropic 的原话大概意思是:当"做"这件事已经不需要人类了。写代码,跑实验,出结果,全都可以交给 AI。那人类还剩什么价值?
答案是,知道如何做选择。
选哪个方向。信哪个结论。什么时候承认这条路走不通。
这个能力,有一个在 AI 圈被反复提起的名字:品味(taste)。
也有人叫它判断力,研究直觉,战略眼光。名字不一样,指的是同一件事。
你去看所有"AI 不会替代人类"的讨论,最后的落脚点永远在这。创造力没法量化,审美没法打分,大局观没法写 benchmark,所以它们是安全的。
然后 Anthropic 做了一个测试。他们发现,就连这个,也在被 AI 追上来。
品味到底是个什么东西?这个词被用得太滥了,像个什么都往里面装的筐。
如果把它拆开看,可以分三层。
第一层,战术判断。一个系统出问题了,下一步查什么?看哪个日志?跑哪个测试?这种事有对错之分,可以被验证。
第二层,策略判断。给定一个目标,比如"让这段代码跑得更快",从哪个方向下手?改算法还是改配置?先做哪个实验?也有对错,但不一定马上能验证。
第三层,方向判断。什么问题真正值得解决?这个研究方向是不是死胡同?走到哪一步该喊停?这是最难定义的。也是人们真正在说"品味"时想表达的意思。
注意一件事。第三层不是独立于前两层存在的。一个能做出好方向判断的人,靠的不是某种神秘天赋。是他在前两层积累了足够多的经验,形成了模式识别。他见过足够多的实验失败,所以能闻到死胡同的味道。他经历过足够多的方向选择,所以知道什么问题是真问题。
那问题来了。如果前两层正在被 AI 接管(事实上已经被接管了),第三层还能单独存在吗?
Anthropic 针对这个问题做了一个非常聪明的测试。
他们从公司内部的真实研究日志里,挑了129个场景。都是研究人员在调查某个问题,过程中跑偏了方向。追了一条线索,浪费了几个小时,后来才拐回来。
然后他们把"跑偏之前"的所有上下文喂给 Claude,让它决定下一步该做什么。再跟人类当时实际做的选择对比。一个能看到整个 session 结局的 Claude 来当裁判。
结果呢。去年11月的时候,Claude 的选择优于人类51%的情况。基本上是瞎蒙。
到今年4月,64%。
当然不是100%。离 Anthropic 自己设的"理想答案"也还有距离。但你看这个斜率,你觉得到年底会变成多少?
Anthropic 对这事说了一句特别克制的话:"Research taste might be just another AI capability that AI systems fail at for a time, then get good at."
翻译过来就是:研究品味可能只是 AI 在一段时间内无法掌握的另一项能力,然后 AI 会逐渐擅长这项能力。
然后他们还补了一刀。以前人们也说 AI 不会解释笑话、不会有心理理论、不会解语言谜题。类似的话,每一次最后都被推翻。
说白了,你会知道一个实验值不值得做,不是因为你有什么天才直觉,是你做过二十个类似的都没成。你知道一个方向是死胡同,是因为你在类似问题上栽过三次。你知道什么时候信数据什么时候不信,是因为你被数据骗过十五次。
这些东西,本质上是经验的压缩。而经验压缩,恰好是 AI 最擅长的事。它的压缩效率,天生就碾压你。
品味被反复提起,不是因为它定义多清晰。而是因为它可能是最后一个能让我们说"这个AI真不行"的东西。
如果连这个也没了,剩下的就不是技术问题,是尊严问题。
你发现有一个东西比你聪明。它不是某一科比你好,是全面碾压。你不会写代码,它会。你不会做实验,它会。你判断不了下一步往哪走,它判断得比你准。这个时候,你会坦然接受吗?
承认自己不是最聪明的那个,对一个人来说很难,对一个物种来说,更难。
人类历史上从来没有经历过这种事。我们在这个星球上一直是老大。我们用创造力、情感、意识这些词来标定自己的特殊性。现在 AI 在一条一条地跨过这些标线。
Anthropic 这份报告里最诚实的一段话,不是那些数字。是他们在结论里兜了一大圈之后,说了一句:"We do not have good intuitions for what this world would look like."
我们也不知道这个世界将会变成什么样。
这不是在谦虚,而是真的不知道。
如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^
相关好文推荐:

0条留言