AI 对劳动力市场的影响:一种新衡量指标和初步证据 | Anthropic


作者:Anthropic | 日期:2026年3月5日

关键发现

  • • 我们提出了一种新的 AI 替代风险衡量指标,称为 observed exposure(观测暴露度)。它将理论上的 LLM 能力与现实世界中的使用数据结合起来,并对自动化用途(相对于增强式用途)以及工作相关用途赋予更高权重。
  • • AI 距离其理论能力上限还很远:实际覆盖范围仍只占可行空间的一小部分。
  • • 观测暴露度更高的职业,在美国劳工统计局(BLS)对 2034 年前的预测中,增长前景更弱。
  • • 暴露度最高的职业从业者更可能年龄较大、女性比例更高、受教育程度更高、薪资也更高。
  • • 自 2022 年末以来,我们没有发现高暴露职业出现系统性的失业上升;但有提示性证据表明,暴露职业对年轻劳动者的招聘已经放缓。

引言

AI 的快速扩散正在催生一波关于其如何影响劳动力市场的研究与预测。但过去相关方法的表现提醒我们应保持谦逊。

例如,一项著名的“工作可离岸化”研究曾认定约四分之一的美国工作岗位容易受到冲击,但十年之后,其中大多数岗位依然保持了健康的就业增长。政府自己的职业增长预测虽然方向上通常正确,但其预测力并没有比对历史趋势做线性外推高出多少。即使事后回看,重大经济冲击对劳动力市场的影响也常常并不清晰。关于工业机器人对就业影响的研究得出了相互矛盾的结论,而“中国贸易冲击”造成的岗位流失规模至今仍在争论之中。

在本文中,我们提出了一个理解 AI 对劳动力市场影响的新框架,并用早期数据对其进行检验。结果发现,到目前为止,AI 影响就业的证据仍然有限。我们的目标是建立一种衡量 AI 如何影响就业的方法,并定期重新审视这些分析。这个方法无法涵盖 AI 重塑劳动力市场的所有渠道,但通过在显著影响出现之前就先搭建起这一分析基础,我们希望未来的发现能比事后分析更可靠地识别经济扰动。

AI 的影响也可能会非常明显。这个框架在影响尚不明确时最有价值,因为它能够在替代真正可见之前,帮助识别最脆弱的工作岗位。

反事实

当影响足够大且足够突然时,因果推断会更容易。新冠疫情及其配套政策带来的经济冲击极其显著,以至于对于许多问题来说,复杂的统计方法都显得没有必要。例如,在疫情初期的几周里,失业率急剧上升,几乎不给其他解释留下空间。

然而,AI 的影响可能更像互联网或与中国的贸易,而不像新冠疫情。它的效果未必会从总体失业数据中立刻显现出来;贸易政策和商业周期等因素都可能干扰对趋势线的解释。

一种常见做法是比较 AI 暴露程度不同的劳动者、企业或行业之间的结果差异,以便将 AI 的影响与其他混杂因素区分开来。暴露通常定义在任务层面:例如,AI 可以批改作业,但不能管理课堂,因此教师被认为比那些整个工作都可以远程完成的劳动者暴露程度更低。

我们的工作沿用了这种基于任务的方法,但在聚合到职业层面之前,同时纳入了理论上的 AI 能力与现实世界中的使用情况。

衡量暴露度

我们的方法结合了三类数据来源。

  1. 1. O*NET 数据库[1]:它列举了美国约 800 个独特职业对应的任务。
  2. 2. 我们自己的使用数据(见 Anthropic Economic Index[2])。
  3. 3. Eloundou 等人(2023)给出的任务级暴露度估计,用来衡量 LLM 是否能够让某项任务的完成速度至少提升一倍。

Eloundou 等人的指标 β 采用一个简单的刻度:若某项任务仅靠 LLM 即可使速度翻倍,则记为 1;若需要在 LLM 之上再配合额外工具或软件,则记为 0.5;否则记为 0。

为什么现实中的实际使用会落后于理论能力?一部分理论上可行的任务可能由于模型局限而并未出现在使用数据中。另一些任务则可能因为法律约束、专门软件要求、人工核验步骤或其他障碍而扩散缓慢。举例来说,Eloundou 等人将“批准药物续配并向药房提供处方信息”标记为完全暴露(β=1)。我们还没有观察到 Claude 执行这项任务,但这一判断本身看起来是合理的,因为从理论上讲,LLM 确实可以加速它。

尽管如此,理论能力与实际使用这两个指标仍然高度相关。正如图 1 所示,在此前四期 Economic Index 报告中观察到的任务里,有 97% 落在 Eloundou 等人评定为理论上可行的类别中(β=0.5 或 β=1.0)。

图 1:按 Eloundou 等人任务暴露评级划分的 Claude 使用占比

这张图展示了按理论 AI 暴露程度分组后的 O*NET 任务中,Claude 使用量的分布。被评为 β=1(仅靠 LLM 即可完成)的任务占观测到的 Claude 使用量的 68%,而 β=0(不可行)的任务仅占 3%。Claude 使用数据来自此前四期 Economic Index 报告。

一种新的职业暴露度衡量方法

我们提出的新指标 observed exposure(观测暴露度)意在回答这样一个问题:在那些理论上可以被 LLM 加速的任务中,哪些任务实际上已经在专业环境里出现了自动化使用?理论能力覆盖的任务范围要宽得多。通过跟踪这一差距如何缩小,观测暴露度可以帮助我们在经济变化刚刚显现时就察觉它们。

我们的指标定性地捕捉了若干我们认为与岗位影响相关的 AI 使用特征。如果某项工作的以下特征更明显,它的暴露度就更高:

  • • 其任务在理论上可由 AI 完成
  • • 其任务在 Anthropic Economic Index 中出现了显著使用
  • • 其任务是在与工作相关的语境中执行的
  • • 它有相对更高比例的自动化使用模式或 API 实现
  • • 它受到 AI 影响的任务占整个岗位的比例更高

数学细节见附录[3]。我们将那些在理论上可由 LLM 完成、且在 Claude 流量中已出现足够工作相关使用的任务视为“已覆盖”。随后再根据任务是如何被执行的进行调整:完全自动化的实现获得完整权重,而增强式使用只获得一半权重。最后,将任务级覆盖度按各任务耗时占比加权平均,汇总到职业层面。

图 2 展示了我们的观测暴露度(红色)与 Eloundou 等人的 β 指标(蓝色)之间的对比,说明在我们平台上,理论能力与实际使用之间的差异,并按大类职业分组。具体计算时,我们先按时间占比将数据加权平均到职业层面,再按总就业人数加权平均到职业类别层面。例如,β 指标显示,在计算机与数学类职业中有 94% 的任务、在办公室与行政类职业中有 90% 的任务,理论上都存在 LLM 渗透空间。

图 2:按职业类别划分的理论能力与观测暴露度

蓝色区域表示 LLM 在理论上能够完成的工作任务占比,红色区域表示基于使用数据得出的、我们自己的岗位覆盖度指标。

红色区域反映了 Anthropic Economic Index 中,用户如何在专业工作场景中使用 Claude。这个覆盖度显示,AI 距离其理论能力上限仍然很远。例如,在计算机与数学类职业中,Claude 目前仅覆盖了全部任务的 33%。

随着能力提升、采用扩散以及部署深化,红色区域将逐步扩展并覆盖蓝色区域。但仍有很大一片未被覆盖的区域;当然,许多任务依然超出 AI 的能力范围,例如修剪树木、操作农机等农业体力劳动,以及在法庭上代理客户等法律工作。

图 3 展示了按这一指标计算,暴露度最高的十个职业。与其他显示 Claude 被广泛用于编程的数据一致,计算机程序员位居榜首,覆盖度达到 75%;其次是客服代表,其核心任务越来越多地出现在第一方 API 流量中;最后是数据录入员,他们的核心任务“阅读源文件并录入数据”已经出现了显著自动化,因此覆盖度达到 67%。

图 3:暴露度最高的职业

使用我们的任务覆盖度指标,排名前十的高暴露职业。

在另一端,30% 的劳动者处于零覆盖状态,因为他们的任务在我们的数据中出现得过于稀少,未达到最低阈值。这个群体包括厨师、摩托车机械师、救生员、调酒师、洗碗工和更衣室服务员等。

暴露度与预测就业增长及劳动者特征的关系

美国劳工统计局(BLS)会定期发布就业预测。最新一轮于 2025 年发布,覆盖了 2024 年到 2034 年每个职业的就业变化预测[4]。在图 4 中,我们将自己的职业级覆盖度指标与这些预测进行比较。

在按当前就业人数加权的职业层面回归中,我们发现,观测暴露度更高的职业,其增长预测略弱。覆盖度每提高 10 个百分点,BLS 的增长预测就下降 0.6 个百分点。这在一定程度上提供了验证,因为我们的指标与劳动力市场分析师独立得出的估计结果方向一致,尽管这种关系本身并不强。有意思的是,单独使用 Eloundou 等人的指标时,并不存在这种相关性。

图 4:2024-2034 年 BLS 预测就业增长与观测暴露度

使用 25 个等大小分箱的分箱散点图。每个实心点表示一个分箱内的平均观测暴露度和预测就业变化。虚线表示按当前就业水平加权的简单线性回归拟合结果。小菱形表示若干单独职业的示例点。

图 5 展示了在 ChatGPT 发布前的三个月,即 2022 年 8 月至 10 月之间,暴露度最高四分位劳动者与零暴露的 30% 劳动者之间的特征差异,数据来自 Current Population Survey。两组差异很大。高暴露组中女性比例高出 16 个百分点,白人比例高出 11 个百分点,亚裔比例几乎翻倍。他们的平均收入高出 47%,教育程度也更高。例如,研究生学历者在未暴露组中占 4.5%,而在最高暴露组中占 17.4%,接近四倍。

图 5:高暴露与低暴露劳动者的差异(Current Population Survey)

优先关注哪些结果

有了这些暴露度指标之后,接下来的问题是应该观察什么结果。研究者采取了不同的方法。例如,Gimbel 等人(2025)使用 Current Population Survey 跟踪职业构成的变化。他们的论点是,若 AI 对经济造成了重要的结构性重组,那么它应当表现为岗位分布的变化。(他们发现,至少到目前为止,这种变化并不显著。)Brynjolfsson 等人(2025)使用薪资处理公司 ADP 的数据,观察按年龄划分的就业水平;而 Acemoglu 等人(2022)与 Hampole 等人(2025)则分别使用 Burning Glass(现为 Lightcast)和 Revelio 的职位发布数据。

我们将失业作为最优先关注的结果,因为它最直接地反映了潜在的经济伤害:一个失业者想要工作,但还没有找到工作。在这种情况下,职位发布数和就业人数的变化并不一定意味着需要政策响应;高暴露岗位的职位发布减少,可能会被相关岗位的职位增加所抵消。AI 带来的大多数有害劳动力市场变化,按理说都应包含一个失业上升的阶段,因为被替代的劳动者需要时间寻找替代选择。Current Population Survey 非常适合跟踪这一点,因为失业受访者会报告自己此前的职业和行业。

初步结果

接下来,我们研究失业趋势,并将职业层面的指标与 Current Population Survey 受访者进行匹配。

解释我们的覆盖度指标时,一个关键问题是:哪些劳动者应被视为“受处理组”?仅有 10% 的任务覆盖度,是否就应预期出现就业变化?Gans 和 Goldfarb(2025)指出,如果 O-ring 模型最能描述工作,那么只有当所有任务都在某种程度上受到 AI 渗透时,就业影响才可能显现。Hampole 等人(2025)则认为,平均暴露度会降低劳动需求,但如果暴露只集中在少数任务上,反而可能抵消这种效应。Autor 和 Thompson(2025)还强调了剩余任务所需专业能力的重要性。

出于简化考虑,并考虑到我们最关心的是较大的影响,我们将分析重点放在平均暴露度最高的群体上。我们比较按任务时间加权覆盖度处于最高四分位的劳动者与处于底部的劳动者。如果 AI 能力进展很快,那么在较低百分位上任务覆盖度也可能已经很高,此时使用绝对阈值可能更有帮助。但我们在这里做出的假设是,AI 的影响应该首先体现在暴露度最高的劳动者身上,因此我们也报告了在改变处理组分界点时的结果。

图 6 的上半部分显示了自 2016 年以来,暴露度最高四分位劳动者与未暴露劳动者的原始失业率趋势。疫情期间,较少受 AI 影响、也更可能从事线下工作的劳动者,失业率上升幅度要大得多。此后,两组趋势基本相似。下半部分则用双重差分框架度量这两组之间差距的变化,与原始数据的发现一致。自 ChatGPT 发布以来,这一差距的平均变化很小且不显著,意味着高暴露组的失业率或许略有上升,但这一效应与零无法区分。

图 6:观测暴露度最高四分位与零暴露劳动者的失业率趋势(Current Population Survey)

上图展示了高暴露四分位劳动者(红线)与零暴露的 30% 劳动者的失业率。下图则在双重差分框架下测量这两条序列之间的差距。

这个框架能够识别什么样的情形?

根据合并估计的置信区间,大约 1 个百分点量级的差异化失业率上升应当是可以被检测到的(随着新数据进入,这个阈值会变化,因此这里只是一个大致量级)。如果暴露度最高的前 10% 劳动者全部被裁掉,那么最高四分位群体内部的失业率将从 3% 升至 43%,总体失业率则会从 4% 升至 13%。

一个更小但仍令人担忧的情形,可能类似于“白领版大衰退”。在 2007-2009 年的大衰退期间,美国失业率从 5% 翻倍至 10%。如果这种翻倍发生在暴露度最高四分位群体中,其失业率将从 3% 升至 6%。这种变化也应当能够在我们的分析中被观测到。需要注意的是,我们的核心估计基于暴露组相对于低暴露组的差异化失业率变化。如果所有劳动者的失业率都同步上升,我们不会将其归因于仍然还有许多任务未受影响的 AI 进展。

一个特别值得关注的群体是年轻劳动者。Brynjolfsson 等人报告称,在暴露职业中,22 至 25 岁劳动者的就业下降了 6%-16%。他们将这一变化主要归因于招聘放缓,而非离职增加。

我们发现,暴露职业中年轻劳动者的失业率基本持平(见附录[3])。但招聘放缓并不一定会表现为失业率上升,因为许多年轻劳动者是劳动力市场新进入者,在 CPS 数据里并没有列明职业,而且他们可能会退出劳动力市场,而不是以“失业”身份出现。为了直接考察招聘,我们利用 CPS 的面板维度,统计 22-25 岁年轻劳动者在不同时间点进入高暴露职业与低暴露职业的新工作开始比例。图 7 展示了年轻劳动者的月度“找到新工作”比率(即某个劳动者报告其当前有一份上个月还没有的工作),并按其进入的是高暴露还是低暴露职业进行区分。

图 7:22-25 岁劳动者在高观测暴露职业与零暴露职业中的新入职情况(Current Population Survey)

上图显示了年轻劳动者进入高暴露职业和零暴露职业的新工作开始比例。下图则在双重差分框架中测量这两条序列之间的差距。

除 2020-2021 年的一些大幅波动外,这两条序列在视觉上从 2024 年开始出现分化,表现为年轻劳动者进入暴露职业的概率相对下降。低暴露职业的求职成功率仍稳定在每月 2%,而进入最高暴露职业的比例则下降了约 0.5 个百分点。以 2022 年为基准,在 ChatGPT 发布后的时期里,暴露职业的求职成功率平均下降了 14%,尽管这一结果仅仅勉强达到统计显著。(对 25 岁以上劳动者则不存在这样的下降。)

这可能为 AI 对就业的早期影响提供了一些信号,也呼应了 Brynjolfsson 等人的发现。但仍有若干其他解释。那些没有被录用的年轻劳动者,可能继续留在原岗位、转向其他工作,或返回学校继续学习。另一个与数据相关的限制是,调查中的工作流动测量可能更容易出现误差。

讨论

本报告提出了一种理解 AI 对劳动力市场影响的新指标,并据此研究其对失业和招聘的影响。一个职业越容易受到 AI 影响,意味着其任务越多地同时满足以下条件:理论上可由 LLM 完成,并且在我们的平台上已被观察到用于自动化、工作相关的场景。我们发现,计算机程序员、客服代表和金融分析师属于暴露度最高的职业。基于美国调查数据,我们没有发现最高暴露职业的失业率受到影响,但有初步迹象表明,22-25 岁劳动者进入这些职业的招聘已经略有放缓。

我们的工作只是对 AI 劳动力市场影响进行系统记录的第一步。我们希望,本报告在覆盖度与反事实分析上的这些方法步骤,能够随着新的就业数据与 AI 使用数据出现而被持续更新。一个既定的方法框架,或许能帮助未来的观察者更好地区分信号与噪声。

当前工作仍有多方面可以改进。未来更新会纳入更多使用数据,从而形成关于经济中任务与岗位覆盖度的动态演化图景。Eloundou 等人的指标也可以进一步更新,因为它本质上仍锚定于 2023 年初的 LLM 能力。此外,鉴于我们在年轻劳动者与劳动力市场新进入者身上看到了提示性结果,一个重要的下一步可能是研究:拥有高暴露领域教育背景的应届毕业生,是如何在当前劳动力市场中进行适应的。

引用链接

[1] O*NET 数据库: https://www.onetcenter.org/database.html
[2] Anthropic Economic Index: https://www.anthropic.com/economic-index
[3] 附录: https://cdn.sanity.io/files/4zrzovbb/website/e5f77fc0e77c0185110b5e4b909602791ae76eae.pdf
[4] 2024 年到 2034 年每个职业的就业变化预测: https://data.bls.gov/projections/occupationProj

https://www.anthropic.com/research/labor-market-impacts

如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^

相关好文推荐:

通过元学习Agent记忆设计学习如何持续学习 | Yiming Xiong

超越 RAG 以实现智能体记忆:通过解耦和聚合进行检索 | ICML

你的工作不会消失,它只是不断在你身边逐渐萎缩 | Jan Tegze

AI 时代的软件与软件公司应该长什么样?

意图即生产力:重新定义产品与开发的边界

Embedding Model 如何“学会”语义相似?

Embedding Model 是什么?

OpenClawd的运作原理 | Hesamation

一个使用 OpenRouter 的 1 万亿令牌实证研究 | OpenRouter AI

Moltbot(Clawdbot)做对了什么?

一个月内把编码主力交给 Agent 的真实体验 | karpathy

从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(三)| Sebastian Raschka

从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(二)| Sebastian Raschka

从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(一)| Sebastian Raschka

Agent 设计模式 | Lance

递归语言模型(Recursive Language Models) | Alex Zhang

Manus 中的上下文工程 | Lance

引入嵌套学习(Nested Learning):一种用于持续学习的全新机器学习范式

如何构建多智能体研究系统

0条留言

留言