欣朵的日志

你经常听说无法被 AI 替代的“品味”，真的会是人类最后的壁垒吗？

昨天我还在写4家万亿公司抢一个300亿市场，他们在赌什么？。里面提到Coding Agent 是所有 AI 能力里，离 AGI 最近的那扇门。Hassabis 管现在的阶段叫"soft self-improvement"，说是 AGI 到来之前的一次彩排。

当时说这话的时候，大部分证据还来自外部。benchmark、第三方实验、公开数据。结果就在今天，Anthropic 便发布了一份报告，把彩排录像带甩了出来。

报告的名字叫《When AI builds itself》。

https://www.anthropic.com/institute/recursive-self-improvement

这份报告被报道之后，大部分人的注意力集中在两个地方。

一个是开发效率的极大提升。

截至今年5月，Anthropic 代码库里超过80%的合并代码，是 Claude 写的。不是辅助，不是提示，是直接写的。Claude Code 发布之前这个数字不到5%。从5%到80%只用了不到两年。

工程师的人均日代码合并量，是2021到2024年水平的8倍。有个员工在内部讨论里说了一句话，"我已经大概5个月没亲手写过一行代码了"。

Claude 在开放式编程任务上的成功率，6个月内从26%涨到了76%。所谓开放式任务，就是没有明确规格的。"帮我查一下这个训练崩溃是什么原因"，然后 AI 自己去翻日志、跑测试、定位问题。普通人做这种事可能要两三天，Claude 做了两个小时。

代码优化实验，一年前 Claude 的平均加速是3倍，现在是52倍。人类研究者在同样的任务上，花四到八个小时能做到4倍。

这些数字看起来像是在说"AI替代程序员"这件事，已经发生了。

另一个是Anthropic有些略显黑色幽默的呼吁。

Anthropic 一边晒肌肉一边说，要是有办法让大家一起慢下来，我们愿意。

当你听到这个，不知道你的内心独白是什么？

Anthropic是不是在装？是不是在抢占道德高地？是不是只想让别人慢下来？

以上两个地方都在讨论一个外部的问题：技术进步有多快，公司该怎么管。

我更感兴趣的，是报告里一段被很多人略过去的话。

Anthropic 的原话大概意思是：当"做"这件事已经不需要人类了。写代码，跑实验，出结果，全都可以交给 AI。那人类还剩什么价值？

答案是，知道如何做选择。

选哪个方向。信哪个结论。什么时候承认这条路走不通。

这个能力，有一个在 AI 圈被反复提起的名字：品味（taste）。

也有人叫它判断力，研究直觉，战略眼光。名字不一样，指的是同一件事。

你去看所有"AI 不会替代人类"的讨论，最后的落脚点永远在这。创造力没法量化，审美没法打分，大局观没法写 benchmark，所以它们是安全的。

然后 Anthropic 做了一个测试。他们发现，就连这个，也在被 AI 追上来。

品味到底是个什么东西？这个词被用得太滥了，像个什么都往里面装的筐。

如果把它拆开看，可以分三层。

第一层，战术判断。一个系统出问题了，下一步查什么？看哪个日志？跑哪个测试？这种事有对错之分，可以被验证。

第二层，策略判断。给定一个目标，比如"让这段代码跑得更快"，从哪个方向下手？改算法还是改配置？先做哪个实验？也有对错，但不一定马上能验证。

第三层，方向判断。什么问题真正值得解决？这个研究方向是不是死胡同？走到哪一步该喊停？这是最难定义的。也是人们真正在说"品味"时想表达的意思。

注意一件事。第三层不是独立于前两层存在的。一个能做出好方向判断的人，靠的不是某种神秘天赋。是他在前两层积累了足够多的经验，形成了模式识别。他见过足够多的实验失败，所以能闻到死胡同的味道。他经历过足够多的方向选择，所以知道什么问题是真问题。

那问题来了。如果前两层正在被 AI 接管（事实上已经被接管了），第三层还能单独存在吗？

Anthropic 针对这个问题做了一个非常聪明的测试。

他们从公司内部的真实研究日志里，挑了129个场景。都是研究人员在调查某个问题，过程中跑偏了方向。追了一条线索，浪费了几个小时，后来才拐回来。

然后他们把"跑偏之前"的所有上下文喂给 Claude，让它决定下一步该做什么。再跟人类当时实际做的选择对比。一个能看到整个 session 结局的 Claude 来当裁判。

结果呢。去年11月的时候，Claude 的选择优于人类51%的情况。基本上是瞎蒙。

到今年4月，64%。

当然不是100%。离 Anthropic 自己设的"理想答案"也还有距离。但你看这个斜率，你觉得到年底会变成多少？

Anthropic 对这事说了一句特别克制的话："Research taste might be just another AI capability that AI systems fail at for a time, then get good at."

翻译过来就是：研究品味可能只是 AI 在一段时间内无法掌握的另一项能力，然后 AI 会逐渐擅长这项能力。

然后他们还补了一刀。以前人们也说 AI 不会解释笑话、不会有心理理论、不会解语言谜题。类似的话，每一次最后都被推翻。

说白了，你会知道一个实验值不值得做，不是因为你有什么天才直觉，是你做过二十个类似的都没成。你知道一个方向是死胡同，是因为你在类似问题上栽过三次。你知道什么时候信数据什么时候不信，是因为你被数据骗过十五次。

这些东西，本质上是经验的压缩。而经验压缩，恰好是 AI 最擅长的事。它的压缩效率，天生就碾压你。

品味被反复提起，不是因为它定义多清晰。而是因为它可能是最后一个能让我们说"这个AI真不行"的东西。

如果连这个也没了，剩下的就不是技术问题，是尊严问题。

你发现有一个东西比你聪明。它不是某一科比你好，是全面碾压。你不会写代码，它会。你不会做实验，它会。你判断不了下一步往哪走，它判断得比你准。这个时候，你会坦然接受吗？

承认自己不是最聪明的那个，对一个人来说很难，对一个物种来说，更难。

人类历史上从来没有经历过这种事。我们在这个星球上一直是老大。我们用创造力、情感、意识这些词来标定自己的特殊性。现在 AI 在一条一条地跨过这些标线。

Anthropic 这份报告里最诚实的一段话，不是那些数字。是他们在结论里兜了一大圈之后，说了一句："We do not have good intuitions for what this world would look like."

我们也不知道这个世界将会变成什么样。

这不是在谦虚，而是真的不知道。

如果觉得内容不错，欢迎你点一下「在看」，或是将文章分享给其他有需要的人^^

相关好文推荐：

每次看见有人说能够识别出一段文字是不是AI生成的，我都忍不住想笑

飞书会取代微信吗？

AI 时代的软件与软件公司应该长什么样？

AI电池人实验室认识世界

欣朵的日志

加载中...

Home

Archive

Pages

Single

Contact

Latest Tweets

欣朵的日志

最新文章

你经常听说无法被 AI 替代的“品味”，真的会是人类最后的壁垒吗？

4家万亿公司抢一个300亿市场，他们在赌什么？

OpenAI Agentic OS将豆包手机开始的革命更进一步

Intel喊了三年的 AI PC，黄仁勋一来就把桌子给掀了

欧洲人的AI焦虑，本质是中年危机

你经常听说无法被 AI 替代的“品味”，真的会是人类最后的壁垒吗？

0条留言

留言

标签

归档

个人公号

个人星球