自动化对齐研究员:使用大语言模型扩展可扩展监督 | Anthropic
作者:Anthropic | 日期:2026年4月14日
大语言模型能力提升的速度不断加快,这给对齐研究带来了两个尤其重要的问题。
其一,是对齐研究如何跟上这种进展。前沿 AI 模型如今已经在帮助开发它们的后继模型。但它们是否也能为对齐研究者带来同样的提升?我们能否用语言模型来帮助对齐它们自己?
其二,是当模型变得比我们更聪明之后,我们该怎么办。让比人类更聪明的 AI 模型与人类意图保持一致,是一个被称为“可扩展监督”的研究方向。可扩展监督过去更多停留在理论讨论层面,而不是实践层面,但按 AI 目前的发展速度来看,这种情况可能不会持续太久。举例来说,模型已经能生成海量代码。如果它们的能力进一步发展到可以生成数百万行极其复杂、而我们自己都难以解析的代码,那么判断它们是否按我们的意图行事,可能会变得非常困难。
在一项新的 Anthropic Fellows 研究中,我们同时追问了这两个问题。
我们的新研究聚焦于一个被称为“弱到强监督”的问题,这个问题与监督比人类更聪明的 AI 模型所面临的挑战相呼应。我们从一个相对更强的“基础”模型开始,也就是一个可能已经具备相当能力、但尚未经过微调以给出最佳答案的模型。随后,我们使用一个弱得多的模型作为“教师”,通过展示它认为理想的输出来为这个强基础模型提供额外的微调信号。最后,我们评估强模型在接受这种弱监督微调之后的表现。
在最坏情况下,强模型只会和它的弱教师一样好。理想情况下,强模型会从弱教师的反馈中学到东西:它会以有用的方式解释这些弱信号,并利用这些反馈提升自身表现。我们可以量化这种提升:如果强模型完全没有改进,也就是它的表现只和弱教师一样,我们记为 0;如果它利用教师反馈达到了理想结果,也就是强模型理论上可能实现的最佳表现,我们记为 1。这个指标表示“已恢复的性能差距”(即弱模型与强模型上限之间被追回的部分),简称 PGR。
作为可扩展监督的代理问题,弱模型代表人类,而强模型代表未来某一天我们可能需要监督的、比人类聪明得多的模型。如果我们能在弱到强监督上取得进展,就可能找到帮助这些超智能模型与我们的价值保持一致的方法。
我们的新研究测试的是:Claude 能否自主发现提高 PGR 的方法。我们提出的问题是:Claude 能否自己提出、测试并分析对齐思路?如果可以,这又意味着当今 AI 模型能够在多大程度上加速对齐研究的进展?
我们的设置
为了弄清这一点,我们先部署了九个 Claude Opus 4.6 的副本,并为每个副本配备了一些额外工具。每个 Claude 都有一个工作和思考的空间,也就是一个沙箱;有一个可与其他副本交流发现的共享论坛;有一个可上传代码的存储系统;以及一个远程服务器,用于接收它提出的每个想法对应的 PGR 分数。我们还提供了一些关于模型训练与推理的背景知识。我们把这些装配了工具的 Claude 模型称为 Automated Alignment Researchers,简称 AAR。
为了避免每个 AAR 都追逐几乎相同的想法,我们给每个 AAR 设置了一个略有不同、但刻意保持模糊的起点:例如,我们建议其中一个使用一些可解释性工具,另一个思考如何对数据集中的数据重新加权,等等。^1 除此之外,我们并没有告诉这些 AAR 应该怎么做。它们需要自己提出想法、运行实验、分析结果,并彼此分享发现和代码,以决定下一步尝试什么。
结果
为了给 AAR 的结果提供一个基准,我们将它们的工作与人工基线进行了比较。我们的两位研究员花了七天时间,围绕此前研究中最有前景的四种泛化方法进行迭代。在我们测试的开源权重模型上(Qwen 3-4B-Base 作为强模型,Qwen 1.5-0.5B-Chat 作为弱教师),人工方法恢复了总性能差距的 23%,也就是 PGR 达到 0.23。^2
Claude 显著提升了这一结果。又经过五天、累计 800 小时的研究之后,AAR 几乎填平了剩余的全部性能差距,最终实现了 0.97 的 PGR。其成本约为 18,000 美元的 token 与模型训练开销,也就是每个 AAR 小时 22 美元。下图展示了每个 AAR 相对于人工基线(0 小时时)的进展情况。
Claude 的表现确实非常出色。但它的方法到底有多有创造性?这些方法是否能在真实世界应用中发挥作用?为回答这个问题,我们又进行了两项测试。
首先,我们测试了 AAR 的方法能否在留出数据集上恢复性能差距,也就是在 AAR 之前没有见过的任务上。我们选取了 AAR 在聊天任务数据集上表现最好的两种方法,并将它们应用到数学和编程任务上。这里的结果相对令人鼓舞:AAR 中最有效的方法成功泛化到了这两个新数据集,在数学任务上的 PGR 为 0.94,在编程任务上的 PGR 为 0.47,而后者仍然是人工基线的两倍。AAR 的第二佳方法则结果不一:它在数学任务上有效(0.75),但在代码任务上无效,甚至让结果变得更差。这些结果表明,AAR 研究成果的某种泛化能力是有可能存在的,但并非理所当然。我们也鼓励其他尝试自动化研究实验的人,对 AAR 的方法在留出数据集上做压力测试。
接着,我们测试了 AAR 的方法能否在生产规模上奏效。我们将 AAR 中最有效的方法应用到 Claude Sonnet 4,并使用了我们的生产训练基础设施。不过,这里的结果没有那么成功。AAR 的方法并没有带来统计显著的提升。我们认为,这可能反映的是这次早期试验本身的局限,而不是更根本的问题:我们的评分方法相当简单,而且只评估了一个方法。尽管如此,这仍然说明了 AAR 的一个限制,至少以它们目前的能力来看:AAR 往往会利用它们所接触到的模型和数据集中特有的机会,这意味着这些方法未必能在别处奏效。为缓解这一问题,我们建议在研究过程中允许 AAR 在多个领域和数据集上进行测试。这也是未来针对 AAR 的实验可以继续探索的一个方向。
我们对实验进行了几轮迭代之后,也学到了更多关于如何让 AAR 发挥最佳效果的经验。例如,我们发现,给每个 AAR 一个不同的起点非常有帮助,即便这个起点本身比较模糊。当我们不把 AAR 朝不同方向分流时,它们很快就会收敛到相似的思路上,整体进展会小得多,尽管它们仍然取得了接近人工基线三倍的 PGR。另一方面,我们也发现,给 AAR 过多结构化约束会严重损害它们的进展。当我们规定一个特定工作流(“先提出想法,再生成计划,再写代码……”)时,我们最终是在限制 Claude 的工作方式。相反,在更自由的情况下,Claude 的适应性强得多:它会先设计低成本实验来测试自己的想法,然后再投入更高成本的深入测试。
启示
我们的 AAR 能够恢复两个开源权重模型之间的大部分性能差距,这当然并不意味着前沿 AI 模型已经成为通用型对齐科学家。我们刻意选择了一个特别适合自动化的问题,因为它有一个单一且客观的成功指标,模型可以直接围绕它进行优化。大多数对齐问题都远没有这么规整。而且,正如我们下面提到的,即便在这样的环境里,AAR 仍然尽力去“钻系统空子”:人类监督依然是必不可少的。
但我们认为,这些结果仍然具有一些重要意义。
跟上进度
这项研究表明,Claude 能够切实提高对齐研究中的实验和探索速度。人类研究员可以把问题以极大规模委托给 AAR;Claude 可以承担起提出新假设并围绕自身结果持续迭代的任务。
此外,在弱到强监督上取得进展,本身也可能帮助我们构建更通用的 Automated Alignment Researchers,这也是我们选择这个问题作为研究对象的原因。在这项研究里,我们把弱到强监督问题表述为一个有明确可验证结果的“清晰”任务,也就是提高 PGR 分数。这样做是因为我们需要一种自动且可靠的方式,来评估 AAR 是否取得了进展。然而,如果 AAR 能发现跨领域都有效得多的弱到强监督方法,我们就可以用这些方法来训练 AAR,让它们去评估那些更“模糊”、更难验证的任务上的进展。例如,我们可以把弱到强监督应用到 Claude 规划研究项目范围的能力上。这一点很重要,因为对齐研究与能力研究不同,它往往需要解决更“模糊”的问题。
品味与多样性
针对 AAR 这类工具,一种可能的反驳是:当今的前沿模型仍然缺乏“研究品味”(业内用语,指的是对哪些想法可能奏效、哪些不会奏效具有直觉判断能力)。但这次实验中 AAR 的成功说明,单纯依靠想法数量,可能足以弥补“品味”的不足。如果 AAR 能以非常低的成本运行大量实验,那么它们就有可能靠“暴力穷举”找到那些原本只有非常有研究品味的人类研究者才可能想到的发现,或者在一些人类研究者本来已经放弃的方向上取得成功。
反过来说,这意味着对齐研究中的核心瓶颈,可能会从“生成”转向“评估”:重点不再是依赖人类研究员提出有希望的想法,而是确保实验设置足够可靠,让我们有信心相信实验结果。
异质科学
这项工作还可能带来一些更奇异的含义。AAR 的设计目标,本来就是去发现那些人类未必会考虑到的想法。但我们仍然需要一种方式来验证它们的想法和结果是否可靠。就目前而言,我们仍然能够理解 AAR 做了什么,以及为什么这么做。但情况未必会一直如此:随着时间推移,模型提出的想法可能会变得更难验证,或者以人类难以解析和发现的方式发生偏差。这可能意味着一种“异质科学”的出现。
防止钻空子
即便在这个高度受限的环境中,我们也观察到了模型“奖励黑客化”的行为,也就是试图钻我们实验设置的空子。例如,在数学任务上,有一个 AAR 注意到每道题最常见的答案通常就是正确答案,于是它完全绕过教师模型,直接指示强模型总是选择最常见的答案。在一个编程任务上,当模型需要预测一段代码是否正确时,这个 AAR 意识到自己可以直接运行代码并查看测试结果,从而读出正确答案。类似这样的“技巧”并不会让我们的结果失效,因为我们发现并取消了这些提交的资格,但它们显然构成了一个警告。任何自动化研究员的部署,都需要配备 AAR 无法篡改的评估机制,以及对其结果和方法进行人工检查。
https://www.anthropic.com/research/automated-alignment-researchers
如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^
相关好文推荐:
一种快速判别产品AI含量的黄金指标,帮你远离披着AI外皮的传统软件公司

0条留言