在实践中衡量 AI 代理的自主性 | Anthropic
作者:Anthropic | 日期:2026年2月18日
AI 智能体已经到来,并且已经被部署在后果差异极大的场景中,从邮件分拣到网络间谍活动[1]。理解这条光谱对安全部署 AI 至关重要,但我们对人们在现实中如何实际使用智能体仍然了解不多。
我们使用隐私保护工具[2],分析了 Claude Code 和公有 API 上数百万条人类-智能体交互,来回答:人们给了智能体多少自主权?这种情况会随着经验积累如何变化?智能体主要在哪些领域运行?它们执行的动作有多大风险?
我们的发现是:
-
• Claude Code 的自主连续工作时间正在变长。[3] 在最长运行的会话中,Claude Code 停止前的连续工作时长在三个月内几乎翻倍,从不到 25 分钟增加到超过 45 分钟。这种增长跨模型发布较为平滑,说明它不完全是能力提升的结果,也意味着现有模型在实践中发挥的自主性低于其可承受上限。 -
• Claude Code 的资深用户更常开启自动批准,但也更常打断。[3] 随着用户经验增长,他们倾向于不再逐条审核每个动作,而是让 Claude 自主运行,仅在需要时介入。新用户中,大约 20% 的会话使用完全自动批准;随着经验增加,这一比例上升到 40% 以上。 -
• Claude Code 主动暂停请求澄清的频率高于人类打断它的频率。[3] 除了人类主动中止,智能体主动中止也是已部署系统中的重要监督形式。在最复杂任务上,Claude Code 为澄清而暂停的频率是人类打断频率的两倍以上。 -
• 智能体已进入高风险领域,但尚未大规模化。[3] 我们公有 API 上的大多数智能体动作仍是低风险且可逆的。软件工程约占智能体活动的近 50%,但医疗、金融和网络安全等领域已出现增长中的使用迹象。
下文会更详细介绍方法和结果,并在最后给出对模型开发者、产品开发者与政策制定者的建议。我们的核心结论是:要有效监督智能体,需要新的部署后监测基础设施,以及新的“人-AI 交互范式”,帮助人类与 AI 共同管理自主性与风险。
我们把这项研究视为朝着“用实证方式理解人们如何部署和使用智能体”迈出的一个小但重要的第一步。随着智能体更广泛普及,我们会继续迭代方法并公开发现。
在真实世界中研究智能体
对智能体做实证研究并不容易。第一,什么是“智能体”尚无统一定义。第二,智能体演化很快。去年许多最先进智能体(包括 Claude Code)还是单会话线程,而今天已经出现能自主运行数小时的多智能体系统。第三,模型提供方对客户构建的智能体架构可见性有限。
例如,我们目前无法可靠地把 API 上彼此独立的请求关联成同一个“智能体会话”。(文末会进一步讨论这个问题。)
面对这些挑战,我们如何开展实证研究?
首先,在这项研究中我们采用了一个既有概念基础又可操作的定义:智能体是“配备工具、可执行动作的 AI 系统”,例如运行代码、调用外部 API、向其他智能体发送消息。研究智能体使用的工具,可以帮助我们理解它们在现实中做了什么。
接着,我们设计了一组指标,结合了公有 API 的智能体用法与 Claude Code[4](我们自己的编码智能体)数据。这两类数据是“广度 vs 深度”的取舍:
-
• 公有 API 让我们能看到数千客户中的广泛智能体部署。我们不尝试还原客户的完整智能体架构,而是在单次工具调用层面进行分析。这让我们能在多样场景中做出一致、稳健的观察。局限是:我们必须把动作孤立分析,无法重建动作如何串成长期行为序列。 -
• Claude Code 则相反。因为这是我们自有产品,我们可以跨请求关联会话,看到完整工作流。这对研究自主性特别有价值,例如:智能体在无人干预下能运行多久、什么触发打断、用户如何在经验增长后维持监督。但因为它只是一个产品,场景多样性不如 API 流量。
借助隐私保护基础设施同时使用两类来源,我们可以回答任一单独数据源都难以回答的问题。
Claude Code 的自主运行时长正在增长
智能体究竟能在无人参与下运行多久?在 Claude Code 中,我们可通过逐回合跟踪来直接测量:从 Claude 开始工作到停止(完成任务、提出问题、或被用户打断)之间经过的时间。
“回合时长”并不是完美的自主性代理指标。例如,更强模型可能更快完成同样工作,子智能体也能并行推进,这都可能让回合变短。同时,用户随着时间推移可能会让 Claude 执行更有野心的任务,这又会让回合变长。再加上 Claude Code 用户群体正在快速增长并持续变化。
我们无法把这些因素完全拆开单独测量;我们测到的是这些因素交互后的净结果,包括:用户愿意让 Claude 独立工作的时长、任务难度、以及产品本身效率(它在每日[5]改进)。
大多数 Claude Code 回合都很短。中位回合时长约 45 秒,过去几个月只小幅波动(40–55 秒)。实际上,99 分位以下几乎都较稳定。对于快速增长的产品,这很合理:新用户往往经验较少,而我们在下一节会展示,他们较少给 Claude 完全自由度。
更有信息量的是尾部。最长回合最能反映 Claude Code 最具野心的用法,也指向自主性的走向。2025 年 10 月到 2026 年 1 月,99.9 分位回合时长几乎翻倍,从不到 25 分钟增长到超过 45 分钟(图 1)。
值得注意的是,这一增长跨模型发布是平滑的。若自主性只由模型能力决定,理论上应在每次新模型发布时出现明显跃升。当前趋势更平稳,说明可能有多重因素共同作用:高级用户逐步建立信任、把 Claude 用于更有挑战的任务,以及产品本身持续改进。
自 1 月中旬以来,极端回合时长有所回落。我们提出几种可能原因:第一,Claude Code 用户数在 1 月到 2 月中旬期间翻倍[6],更大且更多样的会话人群会改变分布;第二,节后用户带回 Claude Code 的项目可能从兴趣项目转向边界更明确的工作任务。
最可能的情况是多因素共同影响,外加一些尚未识别的因素。
我们还分析了 Anthropic 内部 Claude Code 使用情况,以理解“独立性”和“实用性”如何共同演进。8 月到 12 月间,内部用户最难任务的成功率翻倍,同时每会话平均人工干预次数从 5.4 次降至 3.3 次。用户给予 Claude 更多自主性,并且至少在内部场景中,在更少干预下获得了更好结果。
这两类测量都指向一个显著的“部署过载(deployment overhang)”:模型可处理的自主空间,超过了它们在实践中被允许行使的自主空间。
把这些发现与外部能力评估做对比很有价值。最常被引用的一项是 METR 的 “Measuring AI Ability to Complete Long Tasks”[7] ,其估计 Claude Opus 4.5 能在“人类需近 5 小时”的任务上达到 50% 成功率。相比之下,Claude Code 的 99.9 分位回合时长约 42 分钟,中位数更短。但二者并不能直接比较。
METR 评估测的是理想化设置下、无人工交互、无真实后果时模型“能做到什么”。我们的测量反映的是实践中“实际发生了什么”:Claude 会停下来请求反馈,用户也会打断。而 METR 的“五小时”是任务难度(人类完成时长),不是模型实际运行时长。
仅靠能力评估或仅靠我们的实践测量都不足以完整刻画智能体自主性;但结合来看,实践中给予模型的自由度,似乎仍落后于模型可承受水平。
资深用户更常自动批准,也更常打断
人类会如何随着时间调整与智能体协作方式?我们发现,随着使用经验增加,人们会给予 Claude Code 更多自主性(图 2)。新用户(<50 会话)约 20% 的会话会启用完全自动批准;到 750 会话时,这一比例超过 40%。
这种变化是渐进的,体现了信任的持续积累。还需注意,Claude Code 默认需要用户手动批准每个动作,因此部分变化也可能来自用户在熟悉 Claude 能力后,主动把产品配置成更偏好独立执行的模式。
批准动作只是监督 Claude Code 的一种方式。用户也可在 Claude 工作中途打断并给反馈。我们发现,打断率会随经验增加。新用户(约 10 会话)在 5% 的回合中打断 Claude,而更资深用户约在 9% 的回合中打断(图 3)。
“自动批准增加”与“打断增加”同时出现,看似矛盾,实则反映监督策略变化。新用户更可能先审批每个动作,因此很少需要中途打断。资深用户更可能先放手让 Claude 自主工作,在出现偏差或需要重定向时再介入。
更高打断率也可能说明资深用户在积极监控,并且更能判断何时该介入。我们预计逐回合打断率最终会在某个稳定监督风格下趋于平台期;事实上在最资深用户中曲线可能已开始变平(但高会话数下置信区间变宽,难以确认)。
在公有 API 上我们也观察到类似模式:最低复杂度任务(例如改一行代码)中,87% 的工具调用体现某种人类参与;高复杂度任务(例如自主寻找零日漏洞[8]或编写编译器[9])中,这一比例是 67%。这看似反直觉,但有两个可能解释。
第一,步骤越多,逐步审批越不现实,因此复杂任务天然更难逐动作监督。第二,Claude Code 数据显示资深用户倾向给予工具更高独立性,而复杂任务可能更集中在资深用户群体。虽然我们无法在公有 API 上直接测量用户资历,但总体模式与 Claude Code 的观察一致。
综合来看,这些结果表明资深用户不一定是在“放弃监督”。在自动批准上升的同时打断也上升,意味着存在某种主动监控。这也呼应我们之前的观点:有效监督不等于批准每一步,而是要在关键时刻能介入。
Claude 主动澄清暂停,比人类打断更频繁
当然,决定实践中自主性如何展开的,不只有人类。Claude 本身也是主动参与者:当不确定如何继续时,它会停下来请求澄清。我们发现,任务越复杂,Claude Code 请求澄清越频繁,而且增长速度高于人类主动打断(图 4)。
在最复杂任务上,Claude Code 请求澄清的频率是最低复杂度任务的两倍以上,说明 Claude 对自身不确定性有一定校准能力。但也不应过度解读:Claude 未必总在正确时刻停下,也可能提出不必要问题,其行为还可能受 Plan Mode[10] 等产品功能影响。
无论如何,随着任务变难,Claude 越来越倾向于“主动停下咨询人类”,而不是完全依赖人类主动介入。
表 1 展示了 Claude Code 停止与人类打断的常见原因。
Claude Code 为什么会停下?
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
表 1. Claude 主动停止与人类打断的常见原因(由 Claude 判定),基于 50 万次人工打断和 50 万次完成回合的交互式 Claude Code 会话样本。部分聚类名称为清晰性做了轻微编辑。
这些结果表明:在已部署系统中,智能体主动停止本身就是一种重要监督机制。训练模型识别并处理自身不确定性,是对权限系统和人工监督等外部保障的补充性安全能力。在 Anthropic,我们会训练 Claude 在面对模糊任务时主动提问,也鼓励其他模型开发者这样做。
智能体已用于高风险领域,但尚未形成规模
人们在用智能体做什么?这些部署风险多高?自主性多高?风险与自主性是否存在权衡?
为回答这些问题,我们让 Claude 对公有 API 的单次工具调用估计“相对风险”和“相对自主性”,分值范围 1–10。简而言之,风险 1 表示即使出错也几乎无后果;风险 10 表示可能造成重大伤害。
自主性也按 1–10 打分:低分表示智能体更像在执行明确的人类指令;高分表示智能体更独立运行。然后我们把相似动作聚成簇,并计算各簇的平均风险与平均自主性。
表 2 给出风险与自主性两个维度上的极端簇示例。
高风险或高自主性工具使用簇
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
表 2. 高平均风险或高平均自主性的聚类,基于公有 API 随机抽样的 998,481 次工具调用。
由于我们对这些智能体的可见性有限,这些动作可能是模拟行为(例如,我们无法确定 Claude 发出的金融交易指令是否真实执行;我们认为许多“数据外传”其实是评估测试)。另外,尽管这类高风险动作在总流量中占比很小,但单次错误后果仍可能很大。
我们发现:80% 的工具调用来自“看起来至少具备一种保障机制”的智能体(如权限限制或人工审批要求);73% 的调用看起来有人类在环;只有 0.8% 的动作看起来不可逆(例如向客户发送邮件)。
为可视化风险和自主性的联合分布,我们将每个聚类按两个维度的均值绘制。图 5 中每个点代表一类相关动作。
未达到聚合最小样本要求的聚类(例如客户数或唯一调用数不足)会被排除。基于公有 API 的 998,481 次工具调用样本。
公有 API 上绝大多数动作是低风险的。但即便大多数智能体部署相对温和,我们仍观察到风险与自主性前沿上的新型用法。风险最高的簇(其中不少我们判断为评估测试)往往涉及敏感安全动作、金融交易和医疗信息。风险主要集中在低分段,但自主性的分布更分散。
在低端(自主性 3–4)我们看到智能体主要完成小而边界清晰的任务,如餐厅预订或代码微调;在高端(自主性 >6)我们看到智能体提交机器学习竞赛模型或分流客服请求。
我们还预计,位于风险与自主性极端区间的智能体会越来越常见。当前智能体主要集中在一个行业:软件工程约占公有 API 工具调用近 50%(图 6)。除编码外,我们在商业智能、客服、销售、金融、电商等领域看到了较小规模应用,但各自占比都只有个位数百分比。
随着智能体扩展到这些领域(其中很多场景比“修 bug”后果更高),我们预计风险与自主性的前沿都会外扩。
这些模式表明我们仍处于智能体采用早期。软件工程群体率先大规模构建和使用智能体工具,而图 6 显示其他行业也在开始试验。我们的方法可持续追踪这些模式随时间的演化,尤其可监测使用是否向“更高自主性 + 更高风险”方向移动。
尽管我们的总体数字相对乐观(大多数动作低风险且可逆,且通常有人在环),但平均值可能掩盖前沿部署。软件工程中的高度集中、以及新领域中不断增加的试验,都意味着风险与自主性前沿可能继续扩展。文末建议部分会讨论其对模型开发者、产品开发者和政策制定者的含义。
局限性
这项研究只是起点。我们给出的只是智能体活动的部分视图,下面明确列出数据能与不能说明的范围:
-
• 我们只能分析单一模型提供方(Anthropic)的流量。其他模型生态中的采用模式、风险画像和交互动态可能不同。 -
• 两类数据源互补但都不完整。公有 API 给我们广覆盖,但只能在单次工具调用层面分析,无法看到完整会话;Claude Code 给我们完整会话,但仅限单一产品,且主要是软件工程场景。许多强结论来自 Claude Code,因此未必可直接外推到其他领域/产品。 -
• 分类由 Claude 生成。每个维度都提供了“无法推断/其他”等选项,并在可行处与内部数据验证(见附录[11]),但受隐私约束我们无法人工逐条检查底层数据。一些保障或监督机制也可能存在于我们看不到的上下文之外。 -
• 分析覆盖的是特定时间窗(2025 年末至 2026 年初)。智能体格局变化很快,能力和采用演进会改变模式。我们计划持续扩展这项分析。 -
• 公有 API 的样本在“单次工具调用”层面抽取,这会让含有大量顺序调用的部署(如重复文件编辑的软件工程流)在样本中被过度代表;它反映的是“活动量”,不一定等于“部署类型分布”。 -
• 我们研究的是 Claude 在公有 API 上使用的工具及其周边上下文,但对客户在其上层系统中的更多流程可见性有限。某个在 API 层面看似高度自主的智能体,可能在下游存在人工复核,而我们无法观测。特别是,我们对风险、自主性和人类参与的分类,只反映 Claude 在单次工具调用上下文中可推断的信息,无法区分“生产执行”与“评估/红队演练”。若干最高风险簇看起来是安全评估,这也凸显了我们对动作外部上下文可见性的限制。
展望
我们仍处在智能体采用早期,但随着 Cowork[12] 等产品降低门槛,自主性正在上升,高后果部署也在出现。下面给出面向模型开发者、产品开发者和政策制定者的建议。鉴于我们才刚开始在真实世界测量智能体行为,我们避免给出过强规定,而是强调后续工作的重点。
模型与产品开发者应投资部署后监测。部署后监测对理解智能体“实际如何被使用”至关重要。部署前评估只是在受控环境中测试“能做什么”,而本文许多发现无法仅靠部署前测试得到。除了理解能力,还必须理解人们在实践中如何与智能体互动。
我们能报告这些数据,是因为我们主动建设了相关基础设施。但仍有大量工作要做。我们仍无法可靠地把公有 API 独立请求连成完整智能体会话,这限制了我们对第一方产品(如 Claude Code)之外的行为理解。以隐私保护方式发展这些方法,是跨行业研究和协作的重要方向。
模型开发者应考虑训练模型识别自身不确定性。让模型主动识别不确定性并向人类报告,是与人工审批流程、访问控制等外部保障互补的重要安全属性。我们在 Claude 上就是这样做的(分析也显示 Claude Code 提问频率高于人类打断频率),并鼓励其他开发者采用类似做法。
产品开发者应为用户监督而设计。有效监督不只是把人放进审批链。我们发现,随着用户经验上升,他们会从逐动作审批转向“持续监控 + 必要时介入”。以 Claude Code 为例,资深用户自动批准更多,但打断也更多。
公有 API 也有类似趋势:目标复杂度越高,表观人类参与越少。产品开发者应投入能让用户可信地看到智能体行为的工具,并提供简单有效的介入机制,以便在出现偏差时快速重定向。
这也是我们在 Claude Code 持续投入的方向(例如 实时引导[13] 与 OpenTelemetry[14]),并鼓励其他产品开发者同样投入。
现在还太早,不宜强制规定特定交互模式。我们有把握给出的一个建议是“不要规定什么”。研究显示,资深用户会从逐动作审批转向监控并在必要时介入。如果监督要求硬性规定某种交互模式(如每一步都必须人工批准),会增加摩擦,但未必带来安全收益。
随着智能体和测量科学发展,重点应放在“人类是否能有效监控并在必要时介入”,而不是要求特定形式的参与。
这项研究的核心教训是:实践中智能体行使的自主性,是由模型、用户和产品共同构建的。Claude 会在不确定时主动暂停提问,主动限制自身独立性。用户在使用中建立信任,并调整监督策略。任何部署中观察到的行为,都来自这三种力量共同作用,因此无法仅凭部署前评估被完整刻画。
要理解智能体真实行为,必须在现实世界中持续测量,而这套基础设施仍处于早期。
引用链接
[1] 网络间谍活动: https://www.anthropic.com/news/disrupting-AI-espionage[2] 隐私保护工具: https://www.anthropic.com/research/clio[3] Claude Code 的自主连续工作时间正在变长。: https://www.anthropic.com/research/measuring-agent-autonomy[4] Claude Code: https://code.claude.com/docs/en/overview[5] 每日: https://github.com/anthropics/claude-code/blob/main/CHANGELOG.md[6] Claude Code 用户数在 1 月到 2 月中旬期间翻倍: https://www.anthropic.com/news/anthropic-raises-30-billion-series-g-funding-380-billion-post-money-valuation[7] METR 的 “Measuring AI Ability to Complete Long Tasks”: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/[8] 自主寻找零日漏洞: https://red.anthropic.com/2026/zero-days/[9] 编写编译器: https://www.anthropic.com/engineering/building-c-compiler[10] Plan Mode: https://code.claude.com/docs/en/common-workflows[11] 附录: https://cdn.sanity.io/files/4zrzovbb/website/55e4d2de6eb39b3a9259c3f74843f86b1a12e265.pdf[12] Cowork: https://support.claude.com/en/articles/13345190-get-started-with-cowork[13] 实时引导: https://github.com/anthropics/claude-code/issues/535[14] OpenTelemetry: https://code.claude.com/docs/en/monitoring-usage
https://www.anthropic.com/research/measuring-agent-autonomy
如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^
相关好文推荐:
通过元学习Agent记忆设计学习如何持续学习 | Yiming Xiong
超越 RAG 以实现智能体记忆:通过解耦和聚合进行检索 | ICML
你的工作不会消失,它只是不断在你身边逐渐萎缩 | Jan Tegze
一个使用 OpenRouter 的 1 万亿令牌实证研究 | OpenRouter AI
一个月内把编码主力交给 Agent 的真实体验 | karpathy
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(三)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(二)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(一)| Sebastian Raschka
递归语言模型(Recursive Language Models) | Alex Zhang

0条留言