欣朵的日志

是否应该限制强大模型的使用人群？

2026年4月7日，Anthropic 宣布并未公开发布其最新大模型 Claude Mythos，而是通过新启动的“Project Glasswing”（玻璃翼计划）仅向极少数预览合作伙伴提供该模型。Claude Mythos 是一款通用模型，能力与 Claude Opus 4.6 相当，但 Anthropic 表示其在网络安全研究方面的能力过于强大，需为整个软件行业争取时间做好准备。据称，Mythos Preview 已发现数千个高危漏洞，涵盖所有主流操作系统和网页浏览器。

Glasswing 计划的合作伙伴将利用 Mythos Preview 在其基础系统中查找并修复漏洞，这些系统构成了全球大部分共享的网络攻击面。任务重点包括本地漏洞检测、二进制黑盒测试、终端防护和系统渗透测试等。Anthropic 红队博客披露了更多技术细节：Mythos Preview 能自主编写复杂的浏览器漏洞利用链，例如组合四个漏洞实现 JIT 堆喷射，突破渲染器和操作系统沙箱；还能在 Linux 等系统上利用微妙的竞争条件和 KASLR 绕过技术实现本地权限提升；甚至在 FreeBSD 的 NFS 服务器上构建远程代码执行漏洞，通过跨多个数据包的 20 个 gadget 的 ROP 链获得 root 权限。

与 Claude Opus 4.6 对比，内部评估显示后者在自主开发漏洞利用方面的成功率几乎为零：在针对 Firefox 147 JavaScript 引擎漏洞的数百次尝试中，仅两次成功生成 JavaScript shell 利用代码。而 Mythos Preview 在相同测试中成功生成有效利用代码 181 次，并在另外 29 次中实现寄存器控制。

近期多位知名安全专家也证实 AI 在漏洞挖掘方面能力突飞猛进。Linux 内核维护者 Greg Kroah-Hartman 表示，一个月前开始收到大量高质量、真实的 AI 生成安全报告，不再只是“AI 垃圾信息”。curl 项目创始人 Daniel Stenberg 称当前挑战已从“AI 垃圾海啸”转变为“普通安全报告海啸”，其中许多报告质量很高，他每天需花费数小时处理。安全研究员 Thomas Ptacek 也在文章《漏洞研究已完蛋》中呼应这一趋势。

Anthropic 发布了一段 5 分钟的介绍视频，其中研究员 Nicholas Carlini 表示 Mythos 能将多个独立危害有限的漏洞串联成复杂攻击链。他举例称，团队使用该模型扫描开源代码后，在 OpenBSD 中发现一个存在 27 年的内核崩溃漏洞（已于 2026 年 3 月 25 日通过 OpenBSD 7.8 errata 025 修复），并在 Linux 中发现多个无权限用户可提权至管理员的漏洞。所有漏洞均已通报相关维护者并完成修复。

根据 OpenBSD 的修复记录，确认相关代码确实可追溯至 27 年前。当前迹象表明，前沿大模型驱动的编码代理正以前所未有的效率挖掘长期潜伏的漏洞，这可能引发全行业的安全清算。为此，Glasswing 计划投入 1 亿美元的使用额度，并向开源安全组织直接捐赠 400 万美元。参与合作伙伴包括 AWS、Apple、Microsoft、Google 和 Linux Foundation。或许 OpenAI 也应加入，因其 GPT-5.4 已展现出强大的漏洞发现能力，且更强模型即将推出。

对于非合作方，Anthropic 明确表示不会公开提供 Claude Mythos Preview，但最终目标是让用户能安全地大规模部署此类模型。为此，公司正开发能检测并阻止模型输出最危险内容的安全机制，并计划在即将发布的 Claude Opus 新版本中率先部署这些防护措施，以便在风险较低的模型上持续优化。在当前安全风险真实可信的背景下，给予可信团队额外时间应对是合理且必要的权衡。

如果觉得内容不错，欢迎你点一下「在看」，或是将文章分享给其他有需要的人^^

相关好文推荐：

一种快速判别产品AI含量的黄金指标，帮你远离披着AI外皮的传统软件公司

飞书会取代微信吗？

AI 时代的软件与软件公司应该长什么样？

引入嵌套学习（Nested Learning）：一种用于持续学习的全新机器学习范式

如何构建多智能体研究系统