一个使用 OpenRouter 的 1 万亿令牌实证研究 | OpenRouter AI

作者:OpenRouter AI | 日期:2025年12月

摘要

过去一年标志着大型语言模型(LLMs)的演进和实际应用的一个转折点。随着 2024 年 12 月 5 日首个广泛采用的推理模型 o1 的发布,该领域从单次模式生成转变为多步推理推理,加速了部署、实验以及新类别的应用。随着这一转变以快速步伐展开,我们对这些模型在实际中实际使用方式的实证理解却落后了。在这项工作中,我们利用 OpenRouter 平台,这是一个跨多种 LLMs 的 AI 推理提供者,分析了跨越任务、地域和时间的超过 100 万亿个 LLM 交互的实时数据。在我们的实证研究中,我们观察到开源权重模型的广泛采用,创意角色扮演(不仅仅是许多人认为主导的生产力任务)和编码辅助类别的巨大流行,以及代理推理的兴起。此外,我们的留存分析确定了基础群体:早期用户,他们的参与持续时间远长于后期群体。我们将这种现象称为灰姑娘"玻璃鞋"效应。 这些发现强调了开发者和最终用户在现实环境中与 LLMs 互动的方式是复杂且多方面的。 我们讨论了这对模型构建者、AI 开发者和基础设施提供者的意义,并阐述了如何通过数据驱动的使用理解来指导 LLM 系统的更好设计和部署。

引言

就在一年前,大型语言模型的格局还截然不同。在 2024 年末之前,最先进的系统主要是由单次通过、自回归预测器主导的,这些预测器被优化以延续文本序列。一些先前的努力尝试通过高级指令遵循和工具使用来近似推理。例如,Anthropic 的 Sonnet 2.1 & 3 模型在复杂工具使用和检索增强生成(RAG)方面表现出色,而 Cohere 的 Command R 模型则包含了结构化工具规划标记。此外,像 Reflection 这样的开源项目在训练过程中探索了监督思维链和自我批评循环。尽管这些高级技术产生了类似推理的输出和更优的指令遵循能力,但基本的推理过程仍然基于单次前向传递,输出的是从数据中学习到的表面级痕迹,而非执行迭代内部计算。

这一范式于 2024 年 12 月 5 日演变,当时 OpenAI 发布了其 o1 推理模型的第一个完整版本(代号草莓)。2024 年 9 月 12 日发布的预览版本已经表明其偏离了传统的自回归推理。与之前的系统不同,o1 采用了一种扩展的推理时间计算过程,涉及内部多步推理、潜在规划和迭代优化,在生成最终输出之前进行。实证上,这实现了数学推理、逻辑一致性和多步决策的系统改进,反映了从模式补全到结构化内部认知的转变。回顾过去,去年标志着该领域的真正拐点:早期方法暗示了推理的方向,但 o1 引入了第一个通过精心设计的多阶段计算进行推理而非仅仅描述推理的通用部署架构。

尽管 LLM 能力的最新进展已被广泛记录,但这些模型在实际中如何被使用的系统性证据仍然有限。现有记录往往倾向于强调定性演示或基准性能,而不是大规模行为数据。为了弥补这一差距,我们进行了一项 LLM 使用实证研究,利用了来自 OpenRouter 的 100 万亿 token 数据集,OpenRouter 是一个多模型 AI 推理平台,作为各种 LLM 查询的中心枢纽。

OpenRouter 的视角提供了独特的细粒度使用模式窗口。因为它协调跨多种模型(涵盖闭源 API 和开源权重部署),OpenRouter 捕捉了开发者和终端用户实际为各种任务调用语言模型的代表性横截面。通过分析这个丰富的数据集,我们可以观察到哪些模型被用于哪些任务,使用如何在不同地理区域和随时间变化,以及外部因素如定价或新模型发布如何影响行为。

在本文中,我们借鉴了先前关于 AI 采纳的经验研究,包括 Anthropic 的经济影响和使用分析以及 OpenAI 的报告《人们如何使用 ChatGPT》,旨在进行一场中立、基于证据的讨论。我们首先描述了我们的数据集和方法,包括我们如何对任务和模型进行分类。然后,我们深入一系列分析,揭示使用的不同方面:

  • • 开源与闭源模型:我们考察了开源模型相对于专有模型的采纳模式,识别开源生态系统中的趋势和关键参与者。
  • • 代理推理:我们研究了多步骤、工具辅助推理模式的兴起,捕捉用户如何越来越多地将模型作为更大自动化系统中的组件,而不是用于单轮交互。
  • • 分类体系:我们按任务类别(如编程、角色扮演、翻译等)分解使用情况,揭示哪些应用领域驱动了最多的活动,以及这些分布如何因模型提供者而异。
  • • 地理:我们分析全球使用模式,比较各大洲的 LLM 采用情况,并深入探究美国内部的 usage。这突显了区域因素和本地模型供应如何影响整体需求。
  • • 有效成本与使用动态:我们评估使用量与有效成本之间的关系,捕捉 LLM 实际应用中的经济敏感性。该指标基于平均输入和输出 token,并考虑缓存效应。
  • • 留存模式:我们分析最广泛使用模型的长期留存情况,识别出定义持久、粘性行为的基石群体。我们将此定义为灰姑娘“玻璃鞋”效应,即早期用户需求与模型特性之间的契合创造了持久的匹配,从而维持了长期参与度。

最后,我们讨论这些发现对现实世界 LLM 使用的启示,强调了一些出乎意料的模式,并纠正了一些迷思。

数据和方法论

OpenRouter 平台和数据集

我们的分析基于从 OpenRouter 平台收集的元数据,该平台是一个统一的 AI 推理层,连接用户和开发者与数百个大型语言模型。OpenRouter 上的每个用户请求都是针对用户选择的模型执行的,并且记录了描述生成事件的结构的元数据。本研究使用的数据集包含来自全球用户群体的数十亿个提示-完成对的匿名请求级元数据,时间跨度约为写作时的时间,我们聚焦于最近一年。

关键的是,我们没有访问提示或完成的基本文本。我们的分析完全依赖于捕捉每个生成结构、时间和上下文的元数据,而不会暴露用户内容。这种保护隐私的设计使得大规模行为分析成为可能。

每一份数据记录都包含时间信息、模型和提供者标识符、令牌使用情况以及系统性能指标。令牌计数涵盖提示(输入)和完成(输出)令牌,使我们能够测量整体模型工作负载和成本。元数据还包括与地理路由、延迟和使用上下文相关的字段(例如,请求是否为流式传输或取消,或者是否调用了工具调用功能)。这些属性共同提供了一种详细但非文本的视角,展示了模型在实际中的使用情况。

所有基于此元数据的分析、聚合以及大部分可视化均使用 Hex 分析平台进行,该平台提供了可复现的版本化 SQL 查询、转换以及最终图形生成的流程。

我们强调该数据集具有观察性:它反映了 OpenRouter 平台上的真实世界活动,而该平台本身则受到模型可用性、价格和用户偏好的影响。截至 2025 年,OpenRouter 支持来自 60 多家提供商的 300 多个活跃模型,服务着数百万开发者和终端用户,其中超过 50%的使用量源自美国以外地区。虽然平台外部的某些使用模式未被捕获,但 OpenRouter 的全球规模和多样性使其成为观察大规模 LLM 使用动态的代表性窗口。

用于内容分类的 GoogleTagClassifier

这项研究无法直接访问用户提示或模型输出。相反,OpenRouter 通过非专有模块 GoogleTagClassifier 对约 0.25%的所有提示和响应进行内部分类。虽然这仅代表总活动量的一小部分,但考虑到 OpenRouter 处理的总体查询量,其底层数据集仍然相当庞大。GoogleTagClassifier 与 Google Cloud Natural Language 的 classifyText 内容分类 API 接口。

该 API 对文本输入应用一种分层、语言无关的分类体系,返回一个或多个类别路径(例如 /Computers & Electronics/Programming 、 /Arts & Entertainment/Roleplaying Games )以及相应的置信度分数(范围在[0,1]内)。分类器直接作用于提示数据(最多前 1,000 个字符)。分类器部署在 OpenRouter 的基础设施中,确保分类结果保持匿名且不与单个客户关联。置信度分数低于默认阈值 0.5 的类别将被排除在进一步分析之外。分类系统本身完全运行在 OpenRouter 的基础设施中,并不属于本次研究的一部分;我们的分析仅依赖于最终得到的分类输出(实际上是描述提示分类的元数据),而非底层提示内容。

为了让这些细粒度标签在大规模应用中发挥作用,我们将 GoogleTagClassifier 的分类体系映射到研究定义的一组紧凑的桶中,并为每个请求分配标签。每个标签都按一对一的方式汇总到更高一级的类别中。代表性的映射包括:

  • • 编程:来自 /Computers & Electronics/Programming 或 /Science/Computer Science/*
  • • 角色扮演:来自 /Games/Roleplaying Games 和 /Arts & Entertainment/* 下创意对话的残留部分
  • • 翻译:来自 /Reference/Language Resources/*
  • • 一般问答/知识:当意图明显是事实查询时,来自 /Reference/General Reference/* 和 /News/*
  • • 生产力/写作:来自 /Computers & Electronics/Software/Business & Productivity Software 或 /Business & Industrial/Business Services/Writing & Editing Services
  • • 教育:从 /Jobs & Education/Education/*
  • • 文学/创意写作:来自 /Books & Literature/* 和 /Arts & Entertainment/* 下的叙事片段
  • • 成人:来自 /Adult
  • • 其他:用于没有主导映射的提示的长期尾部。(注意:我们在此处的大多数分析中省略了此类别。)

这种方法存在固有的局限性,例如,依赖于预定义的分类法会限制如何对新颖或跨领域行为进行分类,某些交互类型可能尚未完全适合现有的类别。在实践中,当提示内容跨越重叠领域时,可能会收到多个类别标签。尽管如此,基于分类器的分类为我们提供了下游分析的视角。这使我们能够量化不仅 LLMs 的使用程度,而且使用目的。

模型和令牌变体

有几个变体值得明确指出:

  • • 开源与专有:如果模型的权重是公开可用的,我们将其标记为开源(OSS,为简洁起见),如果仅通过受限 API 访问,则标记为专有(例如 Anthropic 的 Claude)。这种区别使我们能够衡量社区驱动模型与专有模型的采用情况。
  • • 来源(中国 vs. 其他地区):鉴于中国 LLMs 的兴起及其独特的生态系统,我们根据模型的主要开发地区进行标记。中国模型包括由中国、台湾或香港的组织开发的模型(例如,阿里巴巴的 Qwen、Moonshot AI 的 Kimi 或 DeepSeek)。其他地区(RoW)模型涵盖北美、欧洲和其他地区。
  • • 提示词与完成词:我们将提示词(代表提供给模型的输入文本)与完成词(代表模型生成的输出)区分开来。总词数等于提示词与完成词之和。推理词代表具有原生推理能力的模型中的内部推理步骤,并包含在完成词内。

除非另有说明,token 数量是指提示(输入)和完成(输出)token 的总和。

地理区域划分

为了了解 LLM 使用的区域模式,我们将请求按用户地理位置进行分段。直接请求元数据(如基于 IP 的位置)通常不够精确或已被匿名化。相反,我们根据每个账户关联的账单位置来确定用户所在区域。这提供了一个更可靠的用户地理位置代理,因为账单数据反映了与用户支付方式或账户注册相关联的国家或地区。我们在分析区域采用情况和模型偏好时使用这种基于账单的分段。

这种方法存在局限性。一些用户使用第三方计费或共享的组织账户,这些账户可能与他们的实际位置不符。企业账户可能会将多个地区的活动汇总到一个计费实体下。尽管存在这些不完美之处,但在我们可访问的元数据条件下,计费地理位置仍然是隐私保护地理分析中最稳定和可解释的指标。

时间范围和覆盖范围

我们的分析主要涵盖截至 2025 年 11 月的滚动 13 个月周期,但并非所有底层元数据都覆盖了整个窗口期。大多数模型级别和定价分析集中在 2024 年 11 月 3 日至 2025 年 11 月 30 日的时间段。然而,类别级别的分析(尤其是使用 GoogleTagClassifier 分类法的分析)基于一个较短的间隔期,从 2025 年 5 月开始,这反映了在 OpenRouter 上持续标记成为可用时的状态。特别是,详细的任务分类字段(例如编程、角色扮演或技术等标签)仅在 2025 年年中添加。因此,类别部分的所有发现应被视为代表 2025 年年中的使用情况,而不是整个前一年。

除非另有说明,所有时间序列聚合均使用 UTC 标准化时间戳,按周计算,汇总提示和完成令牌。这种方法确保了跨模型系列的比较性,并最大限度地减少了来自暂时性峰值或区域时区效应的偏差。

开源与闭源模型

开源与闭源模型分布。按来源类型划分的每周总 token 量占比。浅蓝色阴影代表开源权重模型(中国与全球其他地区),深蓝色对应专有(闭源)产品。垂直虚线标记了关键开源权重模型的发布,包括 Llama 3.3 70B、DeepSeek V3、DeepSeek R1、Kimi K2、GPT OSS 系列和 Qwen 3 Coder。

AI 生态系统中的一个核心问题是开放权重(我们为简洁起见简称为 OSS)与专有模型之间的平衡。下图说明了 OpenRouter 上这一平衡在过去一年中的演变情况。虽然专有模型,尤其是北美主要提供商的模型,仍然服务于大多数代币,但 OSS 模型已稳步增长,到 2025 年末约占使用量的三分之一。

这种扩张并非偶然。使用高峰与 DeepSeek V3 和 Kimi K2 等重大开源模型发布时间一致(如图一中的垂直虚线所示),表明像 DeepSeek V3 和 GPT OSS 模型这样的竞争性开源发布被迅速采用并持续保持增长。重要的是,这些增长在初始发布周后仍然持续,这意味着这并非短期实验,而是真正的生产使用。

按模型类型划分的每周 token 数量。堆叠条形图展示了不同模型类别随时间的总 token 使用量。深红色对应专有模型(封闭式),橙色代表中国开源模型(中国 OSS),蓝绿色表示在中国以外地区开发的开源模型(RoW OSS)。图表突出了 OSS token 份额在 2025 年逐渐增加的趋势,尤其是从年中开始的中国 OSS 模型。

这部分增长主要来自中国开发的模型。从 2024 年末一个微不足道的基数(每周份额低至 1.2%)开始,中国开源模型稳步获得关注,在某些周内其总使用量占比接近 30%。在一年窗口期内,它们平均约占每周 token 总量的 13.0%,强劲增长主要集中在 2025 年下半年。相比之下,全球其他地区开源模型平均为 13.7%,而专有全球其他地区模型仍保持最大份额(平均为 70%)。中国开源模型的扩张不仅反映了竞争性质量,还体现了快速迭代和密集发布周期。Qwen 和 DeepSeek 等模型保持了定期的模型发布,这使其能够快速适应新兴工作负载。这种模式实质性重塑了开源领域,并在 LLM 领域推动了全球竞争。

这些趋势表明 LLM 生态系统存在一种持久的双重结构。专有系统继续定义可靠性和性能的上限,特别是在监管或企业工作负载方面。相比之下,开源模型提供了成本效益、透明度和定制性,使其成为某些工作负载的吸引人选择。目前这种平衡大约在 30%左右达成。这些模型并非相互排斥;相反,它们在一个多模型堆栈中相互补充,而开发者和基础设施提供者越来越青睐这种堆栈。

主要开源参与者

下表按总服务 token 量对数据集中的顶级模型家族进行了排名。在过去一年中,开源模型的格局发生了显著变化:虽然 DeepSeek 仍然是按量计算的最大开源贡献者,但其主导地位已经减弱,因为新的参与者迅速获得了市场份额。如今,多个开源家族各自维持着相当大的使用量,表明生态系统正在多元化。

过去 15 个开源模型的变化趋势。领先的开源模型的每周相对 token 份额(堆叠面积图)。每个彩色条带代表一个模型对总开源 token 的贡献。随着时间的推移,调色板越来越广泛,表明在近几个月中没有单一的主导模型,竞争分布更加激烈。

该图展示了顶级开源模型市场份额的每周剧烈演变。在时期早期(2024 年末),市场高度集中:DeepSeek 系列的两种模型(V3 和 R1)始终占据所有 OSS token 使用量的一半以上,形成了图表底部的大块深蓝色区域。

这种近乎垄断的结构在夏末转折期(2025 年中期)被打破。自那以后,市场变得更加广阔和深入,使用方式也发生了显著变化。像 Qwen 的模型、Minimax 的 M2、MoonshotAI 的 Kimi K2 以及 OpenAI 的 GPT-OSS 系列等新进入者迅速增长,满足了相当一部分请求,通常在发布后几周内就实现了生产规模的采用。这表明开源社区和 AI 初创公司可以通过推出具有新功能或更高效率的模型来实现快速采用。

到 2025 年底,竞争格局已从近乎垄断转变为多元化混合。没有单个模型超过 25%的开源代币份额,代币份额现在更均匀地分布在五到七个模型之间。实际影响是用户在各种选项中找到价值,而不是默认选择一个"最佳"选项。尽管这个数据可视化的是开源模型之间的相对份额(而非绝对数量),但明显趋势是向市场碎片化发展,开源生态系统中竞争加剧。

总体而言,开源模型生态系统目前非常活跃。主要见解包括:

  • • 顶级多样性:曾经 DeepSeek 一家独大,如今我们看到六七个模型各自占据重要份额。没有单个开源模型能持续占据超过≈20–25%的 OSS 代币。
  • • 新进入者的快速扩张:功能强大的新开源模型可以在几周内捕获大量使用量。例如,MoonshotAI 的模型迅速成长为与老牌 OSS 领导者竞争,就连像 MiniMax 这样的新秀也在一个季度内从零增长到大量流量。这表明转换摩擦低,用户群体乐于尝试。
  • • 迭代优势:DeepSeek 长期保持领先地位表明持续改进至关重要。DeepSeek 的连续发布(Chat-V3、R1 等)使其在挑战者出现时仍保持竞争力。开发停滞的 OSS 模型往往会失去份额给那些在前沿频繁更新或进行特定领域微调的模型。

今天,2025 年的开源 LLM 领域呈现出一个竞争激烈的生态系统,创新周期迅速,领导地位并非理所当然。对于模型构建者而言,这意味着发布一款具有顶尖性能的开源模型可以立即获得采用,但维持使用份额需要持续投入进一步开发。对于用户和应用开发者来说,这一趋势是积极的:有更多丰富的开源模型可供选择,它们在特定领域(如角色扮演)的能力往往与专有系统相当甚至更优。

模型规模与市场契合度:中型才是新的小型

OSS 模型大小与使用情况。小型、中型和大型模型提供的总 OSS token 体积的每周份额。百分比按每周总 OSS 使用量进行标准化。

一年前,开源模型生态系统基本上是一个在两个极端之间权衡的故事:大量的小型快速模型和少数几个强大的大型模型。然而,对过去一年的回顾揭示了市场的显著成熟以及一个新的大型模型类别的出现。请注意,我们根据模型的参数数量进行分类,如下所示:

  • • 小型:参数少于 15B 模型的。
  • • 中型:参数量为 15B 至 70B 模型的
  • • 大型:参数量达到 70B 或更多的模型。

开发者与用户行为数据向我们展示了复杂的情况。数据显示,虽然各类模型数量都在增长,但使用情况发生了显著变化。小型模型正逐渐失去青睐,而中型和大型模型则正在占据这些价值。

按参数规模随时间推移的 OSS 模型数量。按参数大小类别分组,每周可用的开源模型数量。

更深入地观察驱动这些趋势的模型,揭示了不同的市场动态:

  • • "小型"市场:使用率整体下降。 尽管不断有新模型推出,但整个小型模型类别使用率占比正在下降。这一类别具有高度碎片化特征。没有单一模型能长期占据主导地位,而是不断有来自 Meta、Google、Mistral 和 DeepSeek 等不同提供者的新进入者。例如, Google Gemma 3.12B (2025 年 8 月发布)虽然迅速被采用,但在竞争激烈的市场中,用户不断寻求下一个最佳替代方案。
  • • "中端市场":寻找"模型-市场契合度"。 中端模型类别清晰地展现了市场创建的故事。该细分市场在 2024 年 11 月 Qwen2.5 Coder 32B 发布之前微不足道,该发布有效地确立了这一类别。随着 Mistral Small 3 (2025 年 1 月)和 GPT-OSS 20B (2025 年 8 月)等其他强劲竞争者的到来,该细分市场成熟为一个竞争生态系统,它们争夺用户心智份额。这一细分市场表明用户寻求能力与效率的平衡。
  • • "大型模型领域:多元化格局。 '追求品质'并未导致整合,而是促进了多样化。目前,大型模型类别涵盖了从 Qwen3 235B A22B Instruct (2025 年 7 月发布)到 Z.AI GLM 4.5 Air 再到 OpenAI: GPT-OSS-120B (8 月 5 日)的一系列高性能竞争者:每个模型都捕捉到了有意义且持续的用途。这种多元化表明用户正在积极地在多个开源大型模型之间进行基准测试,而不是趋同于单一标准。"

小型模型主导开源生态系统的时代或许已经结束。市场正在分化,用户要么倾向于一种新的、强大的中型模型,要么将他们的工作负载集中到最强大的单个大型模型上。

开源模型用于哪些方面?

开源模型如今被应用于极为广泛的任务,涵盖创意、技术和信息领域。虽然专有模型在结构化商业任务中仍占主导地位,但开源模型在两个特定领域确立了领导地位:创意角色扮演和编程辅助。这两个类别共同占据了开源代币使用的大部分。

OSS 模型的类别趋势。开源模型在高级任务类别中的使用分布。角色扮演(约 52%)和编程持续主导 OSS 工作负载组合,两者合计占 OSS token 的大部分。较小的部分包括翻译、一般知识问答等。

上图显示,超过一半的开源模型使用场景属于角色扮演,编程是第二大类。这表明用户主要利用开源模型进行创意互动对话(如讲故事、角色扮演和游戏场景)以及与编程相关的任务。角色扮演(占比超过所有开源代币的 50%)的主导地位突显了开源模型的优势:它们可用于创意创作,且内容过滤器约束较少,使其对幻想或娱乐应用具有吸引力。角色扮演任务需要灵活的回应、上下文记忆和情感细节——这些是开源模型能够有效提供且不受商业安全或审核层严格限制的属性。这使得它们特别适合尝试角色驱动体验、同人小说、互动游戏和模拟环境的社区。

中文开源类别趋势。中国开发的开源模型中类别构成。角色扮演仍然是最大的使用案例,尽管编程和技术在这里合计占的比例比整体 OSS 混合体更大(33%与 38%)。

上图显示了仅针对中文 OSS 模型的时间分类细分情况。这些模型不再主要用于创意任务。角色扮演仍然是最大的类别,约占 33%,但编程和技术现在合计占使用量的多数(39%)。这一转变表明,像 Qwen 和 DeepSeek 这样的模型越来越多地用于代码生成和与基础设施相关的工作负载。虽然高容量企业用户可能会影响特定细分领域,但整体趋势表明中文 OSS 模型正直接在技术和生产力领域竞争。

按模型来源的编程查询。专有模型、中文开源模型与非中文(其他地区)开源模型在处理编程相关 token 数量上的占比。在开源模型领域,平衡在 2025 年末显著向非中文开源模型倾斜,目前其占比已超过所有开源编码 token 的一半(此前曾有一段时间中文开源模型主导了开源编码使用)。

按模型来源的编程查询。专有模型、中文开源模型与非中文(其他地区)开源模型在处理编程相关 token 数量上的占比。在开源模型领域,平衡在 2025 年末显著向非中文开源模型倾斜,目前其占比已超过所有开源编码 token 的一半(此前曾有一段时间中文开源模型主导了开源编码使用)。

按模型来源划分的角色扮演查询。角色扮演用例的 token 数量,分为中国 OSS 和非中国 OSS 模型。对于这两组模型,角色扮演仍然是最大的类别;到 2025 年末,流量大致平均分配在中国和非中文开源模型之间。

现在,如果我们只考察角色扮演类应用的流量,就会发现它目前几乎被世界其他地区的开源软件(橙色,最近几周占比 43%)和闭源软件(灰色,最近占比约 42%)平分秋色。这与 2025 年初的情况截然不同,当时该类别主要由专有(灰色)模型主导,占据了约 70% 的流量份额。那时(2025 年 5 月),西方开源模型仅占流量的约 22%,而中国开源模型(蓝色)的份额很小,约为 8%。在这一年中,专有模型的份额稳步下降。到 2025 年 10 月底,随着西方和中国开源模型都取得了显著进展,这一趋势进一步加速。

由此产生的融合表明竞争健康;用户可以从开放和专有产品中为创意聊天和故事讲述选择可行的方案。这反映出开发者认识到角色扮演/聊天模型的需求,并已调整其发布以满足这一需求(例如,在对话上进行微调,为角色一致性添加对齐)。需要注意的是,“角色扮演”涵盖了一系列子类型(从休闲聊天到复杂的游戏场景)。然而,从宏观角度来看,开源模型在这一创意领域具有优势。

解读。 总体而言,在开源生态系统中,主要应用场景包括:角色扮演和创意对话:这是最主要的类别,可能因为开源模型可以无限制使用或更易于为虚构角色和故事任务进行定制。编程辅助:第二大应用场景,且呈增长趋势,因为开源模型在代码方面的能力越来越强。许多开发人员利用开源模型在本地进行编程以避免 API 成本。翻译和多语言支持:一个稳定的应用场景,尤其是在有强大的双语模型可用时(中文开源模型在这方面具有优势)。一般知识问答和教育:中等使用程度;虽然开源模型可以回答问题,但用户可能更倾向于使用 GPT-5 等封闭模型以获得最高的事实准确性。

值得注意的是,OSS 的使用模式(侧重角色扮演)与许多人认为的"爱好者"或"独立开发者"领域相似——在这些领域,定制化和成本效益优先于绝对准确性。然而,界限正在变得模糊:OSS 模型在技术领域正迅速改进,而专有模型也被创造性地使用。

代理推理的兴起

在上一节对模型格局演变(开源与闭源)的探讨基础上,我们现在转向 LLM 使用本身的根本形态。语言模型在生产环境中的使用方式正在发生基础性转变:从单轮文本补全转向多步骤、工具集成、推理密集型的工作流程。我们将这一转变称为代理推理的兴起,即模型不仅用于生成文本,还通过规划、调用工具或跨长时间段交互来行动。本节将通过五个指标追踪这一转变:推理模型的兴起、工具调用行为的扩展、序列长度分布的变化,以及编程使用如何驱动复杂性。

推理模型现在占所有使用的半数

推理与非推理 Token 趋势。自 2025 年初以来,通过推理优化模型路由的所有 Token 的比例稳步上升。该指标反映的是推理模型服务的所有 Token 的比例,而非模型输出中"推理 Token"的比例。

如上图所示,2025 年通过推理优化模型路由的总 token 份额急剧上升。在第一季度初几乎可以忽略不计的使用份额,现在已超过百分之五十。这一转变反映了市场的两方面。在供应方面,GPT-5、Claude 4.5 和 Gemini 3 等更高能力系统的发布,扩展了用户对逐步推理的预期。在需求方面,用户越来越倾向于能够管理任务状态、遵循多步逻辑并支持代理式工作流的模型,而不是仅仅生成文本的模型。

按 Token 数量排名的推理模型。在推理模型中,xAI 的 Grok Code Fast 1 目前处理了最大份额的推理相关 Token 流量,其次是 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。xAI 的 Grok 4 Fast 和 OpenAI 的 gpt-oss-120b 则构成了该组的前列。

上图显示了推动这一转变的主要模型。在最新数据中,xAI 的 Grok Code Fast 1 现在驱动了推理流量(不包括免费启动访问)的最大份额,领先于 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。这仅是几周前的一个显著变化,当时 Gemini 2.5 Pro 引领该类别,DeepSeek R1 和 Qwen3 也处于顶尖行列。Grok Code Fast 1 和 Grok 4 Fast 迅速获得了份额,得益于 xAI 的积极推广、有竞争力的定价以及开发者对其面向代码的变体的关注。与此同时,像 OpenAI 的 gpt-oss-120b 这样的开源模型持续存在,这表明开发者仍然在可能的情况下选择 OSS。整体情况突显了推理领域已成为如何动态,快速的模型更迭正在塑造哪些系统主导实际工作负载。

数据表明了一个明确的结论:以推理为导向的模型正成为实际工作负载的默认路径,而流经这些模型的 token 份额现在已成为衡量用户希望如何与 AI 系统交互的领先指标。

工具调用日益普及

工具调用。总 token 的占比,标准化到那些完成原因被分类为工具调用的请求,这意味着在请求期间实际调用了工具。这个指标反映了成功的工具调用;包含工具定义的请求数量比例更高。

在上面的图中,我们报告了源自那些完成原因为工具调用的请求的 token 总数的占比。该指标已进行归一化处理,并且仅捕获了实际调用了工具的交互。

这与输入工具信号不同,后者记录的是在请求期间是否向模型提供了工具(无论是否实际调用)。根据定义,输入工具计数高于工具调用完成原因计数,因为提供工具是成功执行工具的必要条件。完成原因指标衡量的是实际的工具使用情况,而输入工具指标反映的是潜在的可用性,而不是实际的调用情况。由于此指标仅在 2025 年 9 月引入,因此本文不报告此指标。

上图五月份的明显峰值主要归因于一个大型账户,其活动短暂地提升了整体量级。除了这个异常情况,工具采用率在整个年度中显示出持续上升的趋势。

按工具提供量排名的顶级模型。工具提供集中在专门针对代理推理优化的模型上,例如 Claude Sonnet、Gemini Flash。

如上图所示,工具调用最初集中在少数几款模型上:OpenAI 的 gpt-4o-mini 和 Anthropic 的 Claude 3.5 及 3.7 系列,这些模型共同占据了 2025 年初大部分带工具功能的 token。然而到了年中,更多模型开始支持工具提供,反映出更具竞争性和多元化的生态系统。从 9 月底开始,Claude 4.5 Sonnet 模型迅速获得市场份额。与此同时, Grok Code Fast 和 GLM 4.5 等新进入者也取得了明显进展,这反映了在带工具功能部署方面更广泛的实验和多样化。

对于操作者而言,这意味着很明确:在高端工作流程中,启用工具使用正在上升。缺乏可靠工具格式的模型,在企业和编排环境中面临被淘汰的风险。

提示词-完成词 结构的解剖

提示令牌数量正在上升。自 2024 年初以来,平均提示令牌长度增长了近四倍,反映了日益复杂的上下文工作负载。
完成令牌数量几乎翻了三倍。输出长度也有所增加,尽管基准值较小,这表明响应更加丰富、详细,这主要归因于推理令牌。
编程是提示令牌增长的主要驱动力。由于标签从 2025 年春季开始可用,与编程相关的任务始终需要最大的输入上下文。

过去一年,模型工作负载的形态发生了显著变化。提示(输入)和完成(输出)的 token 数量都急剧上升,但规模和速率不同。每个请求的平均提示 token 数量从大约 1.5K 增加到超过 6K,增长了约四倍,而完成数量从大约 150 个 token 增加到 400 个 token,几乎翻了三倍。增长的相对幅度突显了工作负载向更复杂、更富上下文的转变。

这种模式反映了模型使用上的新平衡。如今的典型请求已不太关注开放式生成(如"写给我一篇论文"),而更多地涉及对用户提供的丰富材料(如代码库、文档、转录文本或长对话)进行推理,并产出简洁、高价值的见解。模型正越来越多地扮演分析引擎而非创意生成器的角色。

类别级别的数据(自 2025 年春季起可用)提供了更细致的图景:编程工作负载是提示令牌增长的驱动因素。涉及代码理解、调试和代码生成的请求通常超过 20K 输入令牌,而所有其他类别则保持相对平稳且低容量。这种不对称贡献表明,最近提示大小的扩张并不是跨任务的一致趋势,而是集中在软件开发和技术推理用例上的激增。

更长的序列,更复杂的交互

随时间推移的平均序列长度。每次生成的平均 token 数量(提示词+完成词)。
编程中的序列长度与整体。编程提示系统地更长,并且增长速度更快。

序列长度是衡量任务复杂性和交互深度的指标。上图显示,在过去 20 个月中,平均序列长度从 2023 年底的不到 2000 个 token 增长到 2025 年底的超过 5400 个 token,增长了三倍以上。这一增长反映了结构性的转变,即更长的上下文窗口、更深入的任务历史和更复杂的补全。

根据上一节内容,第二个图进一步明确了:与通用提示相比,编程相关提示的平均 token 长度现在高出 3-4 倍。这种差异表明,软件开发工作流程是导致交互更长的主要驱动力。长序列不仅仅是用户冗长:它们是嵌入式、更复杂代理工作流程的标志。

影响:代理推理成为新默认设置

这些趋势(推理份额上升、工具使用扩展、序列变长以及编程的巨大复杂性)共同表明,LLM 使用的重心已经发生转移。中位数 LLM 请求不再是一个简单的问题或孤立指令。相反,它已成为一个结构化、类似代理的循环的一部分,调用外部工具、对状态进行推理,并在更长的上下文中持续存在。

对于模型提供者而言,这提高了默认能力的要求。延迟、工具处理、上下文支持和抵抗畸形或对抗性工具链的鲁棒性正变得越来越关键。对于基础设施操作者来说,推理平台现在必须管理不仅是无状态请求,还包括长时间运行的对话、执行跟踪和权限敏感的工具集成。不久的将来,如果尚未发生,代理推理将接管大部分推理工作。

类别:人们如何使用 LLMs?

了解用户使用 LLMs 执行的任务分布情况,对于评估实际需求以及模型与市场的匹配度至关重要。正如数据与方法部分所述,我们将数十亿模型交互分类为高级应用类别。在开源与闭源模型部分,我们专注于开源模型,以观察社区驱动的使用情况。在此,我们将视野扩展到 OpenRouter 上所有 LLM 的使用情况(包括闭源和开源模型),以全面了解人们在实践中使用 LLMs 的目的。

主要类别

编程作为一个主导且不断增长的类别。所有被归类为编程的 LLM 查询份额持续增加,反映了 AI 辅助开发工作流程的兴起。

编程已成为所有模型中持续扩展的最主要类别。与 2025 年 LLM 辅助开发环境和工具集成的兴起相呼应,与编程相关的请求份额稳步增长。如上图所示,2025 年初,编程查询约占总 token 量的 11%,而最近几周已超过 50%。这一趋势反映了从探索性或对话式使用向代码生成、调试和数据脚本等应用任务的转变。随着 LLM 嵌入开发者工作流程,其作为编程工具的角色正逐渐被规范化。这一演变对模型开发产生了影响,包括更加重视以代码为中心的训练数据、提升多步编程任务的推理深度,以及模型与集成开发环境之间更紧密的反馈循环。

编程支持日益增长的需求正在重塑各模型供应商的竞争格局。如下图所示,Anthropic 的 Claude 系列始终主导该类别,在大部分观察期内,其编程相关支出占比超过 60%。然而,市场格局已发生显著变化。在 11 月 17 日那一周,Anthropic 的份额首次跌破 60%的门槛。自 7 月以来,OpenAI 的份额在近几周内从约 2%扩展至约 8%,这可能反映了重新重视以开发者为中心的工作负载。在同一时期内,Google 的份额保持在约 15%的稳定水平。中端市场也在变动中。包括 Z.AI、Qwen 和 Mistral AI 在内的开源供应商正稳步提升市场份额。MiniMax 尤其成为快速崛起的新进入者,在近几周内表现出显著的增长。

按模型提供方的编程请求占比。编程工作负载高度集中:Anthropic 的模型承担了最大份额的编码查询,其次是 OpenAI 和 Google,而 MiniMax 的份额正在增长。其他提供方合计仅占一小部分。该图表未包含 xAI,尽管其使用量很大,但曾有一段时间免费提供。

总体而言,编程已成为最具竞争性和战略重要性的模型类别之一。它持续吸引顶级实验室的关注,模型质量或延迟的微小变化都可能每周导致份额的变动。对于基础设施提供方和开发者而言,这凸显了持续基准测试和评估的必要性,尤其是随着前沿领域的不断演变。

类别内的标签构成

按总 token 份额排名的前 6 个类别。每个条形图显示了该类别中主导子标签的分解情况。标签表示至少贡献了该类别 7% token 的子标签。
接下来 6 个按 token 份额分类的类别。二级类别的分解方式相似,展示了每个领域子主题的集中度(或缺乏集中度)。

上述数据将 LLM 使用情况分解为十二个最常见的类别,揭示了每个类别的内部子主题结构。一个关键发现是大多数类别并非均匀分布:它们通常由一个或两个反复出现的使用模式主导,这往往反映了集中的用户意图或与 LLM 优势的契合。

在各类使用量最高的领域中,角色扮演因其一致性和专业性而尤为突出。近 60%的角色扮演代币属于游戏/角色扮演游戏类别,这表明用户将 LLMs 更多地视为结构化的角色扮演或角色引擎,而非随意的聊天机器人。这一点进一步得到了写作资源(15.6%)和成人内容(15.4%)存在的印证,显示出互动小说、场景生成和个人幻想的结合。与角色扮演主要是非正式对话的假设相反,数据显示这是一种定义明确且可复制的基于类别的使用案例。

编程同样存在这种偏差,超过三分之二的流量被标记为编程/其他。这表明与代码相关的提示具有广泛和通用性质:用户并非狭隘地专注于特定工具或语言,而是向 LLMs 寻求从逻辑调试到脚本起草等各种需求。尽管如此,开发工具(26.4%)以及少量脚本语言的使用表明正在出现专业化趋势。这种碎片化凸显了模型构建者改进结构化编程工作流程相关标签或训练的机会。

除了角色扮演和编程这些主要类别之外,其余的领域代表了 LLM 使用中多样但低量的尾部。虽然每个领域的使用量较小,但它们揭示了用户在专业和新兴任务中与模型交互的重要模式。例如,翻译、科学和健康领域显示出相对平坦的内部结构。在翻译领域,使用量几乎均等分布在外国语言资源(51.1%)和其他类别之间,这表明需求较为分散:多语言查询、改写、轻微的语码转换,而不是持续性的文档级翻译。科学领域由单一标签主导,即机器学习与人工智能(80.4%),这表明大多数科学查询是元 AI 问题,而不是像物理或生物这样的一般 STEM 主题。这反映了用户兴趣或模型优势偏向于自我指涉的查询。

相比之下,健康是顶级类别中最分散的,没有任何子标签超过 25%。标记分散在医学研究、咨询服务、治疗指导和诊断查询中。这种多样性突出了该领域的复杂性,但也带来了安全建模的挑战:LLMs 必须涵盖高变异性用户意图,通常在敏感的上下文中,而没有集中在单一用例上。

将这些长尾类别联系在一起的是它们的广泛性:用户转向 LLMs 进行探索性、轻度结构化或寻求帮助的交互,但缺乏编程或个人助理中看到的专注工作流程。综合来看,这些次要类别可能不会主导数量,但它们暗示着潜在需求。它们表明 LLMs 正被用于翻译、医疗指导、AI 内省等众多领域的边缘,并且随着模型在领域鲁棒性和工具集成方面的改进,我们可能会看到这些分散的意图汇聚成更清晰、更高容量的应用。

相比之下,金融、学术和法律领域则更为分散。金融领域将其业务量分散在外汇、社会责任投资以及审计/会计:没有任何单一标签占比超过 20%。法律领域显示出类似的熵值,使用情况分为政府/其他(43.0%)和法律/其他(17.8%)。这种碎片化可能反映了这些领域的复杂性,或者仅仅是与编码和聊天等更成熟的类别相比,缺乏针对它们的特定 LLM 工作流程。

数据显示,现实中的 LLM 使用并非均匀探索:它紧密地聚集在少数可重复、高容量的任务上。角色扮演、编程和个人助理每个都表现出清晰的结构和主导标签。相比之下,科学、健康和法律领域则更为分散,可能存在优化不足的问题。这些内部分布可以指导模型设计、特定领域的微调和应用级接口,特别是在根据用户目标定制 LLM 时。

按类别划分的作者级洞察

不同的模型作者在使用模式上有所不同。下图展示了主要模型系列(Anthropic 的 Claude、Google 的模型、OpenAI 的 GPT 系列、DeepSeek 和 Qwen)的内容类别分布。每个条形图代表该提供者的 100%的 token 使用量,并按顶级标签进行细分。

Anthropic。主要用于编程和技术任务(超过 80%),角色扮演使用极少。
谷歌。使用范围广泛,涵盖法律、科学、技术以及一些一般知识查询。
xAI. 令牌使用高度集中在编程领域,技术、角色扮演和学术界在 11 月下旬逐渐突出。
OpenAI。随着时间的推移,工作重心逐渐转向编程和技术任务,角色扮演和闲聊功能显著减少。
DeepSeek。使用主要受角色扮演和随意交互主导。
Qwen. 在编程任务上专注度高,角色扮演和科学类别的表现随时间波动。

Anthropic 的 Claude 主要偏向于编程和技术使用,这两项合计占其使用率的 80%以上。角色扮演和一般问答仅占一小部分。这证实了 Claude 作为复杂推理、编程和结构化任务优化模型的定位;开发者和企业似乎主要将 Claude 用作编程助手和问题解决工具。

谷歌的模型使用更加多样化。我们观察到 Translation(翻译)、Science(科学)、Technology(技术)和一些 General Knowledge(一般知识)等显著部分。例如,约 5%的谷歌使用涉及法律或政策内容,另外约 10%与科学相关。这可能暗示了 Gemini 的广泛训练重点。与其他模型相比,谷歌的编码份额相对较少,并且实际上在 2025 年末呈下降趋势(降至约 18%),同时涵盖更广泛的类别。这表明谷歌的模型更多地被用作通用信息引擎。

xAI 的使用情况与其他供应商不同。在大部分时间里,使用情况高度集中在编程领域,通常占所有 token 的百分之八十以上。直到 11 月下旬,使用分布才开始扩大,在技术、角色扮演和学术领域出现了明显增长。这种急剧转变与 xAI 的模型通过特定消费者应用程序免费分发的时间相吻合,这可能引入了大量非开发者的流量。结果是使用构成融合了早期以开发人员为主的核心和突然涌起的通用应用,表明 xAI 的采用路径正受到技术用户和与促销可用性相关的间歇性激增的双重影响。

OpenAI 的使用模式在 2025 年发生了显著变化。今年早些时候,科学任务占所有 OpenAI token 的一半以上;到 2025 年末,这一比例已下降至不到 15%。与此同时,编程和技术相关使用量现在占总量的超过一半(各占 29%),反映了更深入地融入开发者工作流程、生产力工具和专业应用中。OpenAI 的使用构成现在介于 Anthropic 高度集中的模式和 Google 更分散的分布之间,表明其具有广泛的应用基础,并逐渐倾向于高价值、结构化的任务。

DeepSeek 和 Qwen 的使用模式与其他先前讨论的模型家族差异显著。DeepSeek 的 token 分布主要集中于角色扮演、闲聊和以娱乐为导向的互动,通常占其总使用量的三分之二以上。只有一小部分活动属于结构化任务,如编程或科学。这种模式反映了 DeepSeek 强劲的消费导向及其作为高参与度对话模型的定位。值得注意的是,DeepSeek 在夏末编程相关使用量呈现温和但稳定的增长,表明在轻量级开发工作流程中逐步采用。

相比之下,Qwen 呈现出几乎相反的轮廓。在整个展示的时期内,编程始终代表所有 token 的 40-60%,表明对技术和开发者任务的明确侧重。与 Anthropic 更稳定的以工程为主的构成相比,Qwen 在科学、技术和角色扮演等相邻类别中表现出更高的波动性。这些每周的变动暗示着异构的用户基础和在实际用例中的快速迭代。9 月和 10 月期间角色扮演使用的显著上升,随后 11 月的收缩,暗示着用户行为的变化或下游应用路由的调整。

总而言之,每个供应商都展现出与其战略重点相一致的独特特征。这些差异突显了为何没有单一模型或供应商能够完美覆盖所有用例;同时也强调了多模型生态系统的潜在优势。

地理:LLM 使用在不同地区的差异

全球 LLM 使用呈现明显的区域差异。通过分析地理分布,我们可以推断当地使用和支出如何塑造 LLM 使用模式。尽管以下数据反映了 OpenRouter 的用户基础,但它们仅是区域参与情况的一个快照。

使用区域分布

如图所示,支出分布凸显了 AI 推理市场的日益全球化特征。尽管北美仍是最大单一区域,但其支出占比在观察期内大部分时间已不足一半。欧洲则展现出稳定且持续的贡献。其每周支出占比在整个时间线内保持一致,通常维持在百分之十几到百分之二十几的区间。一个显著的发展是亚洲不仅成为前沿模型的产地,也成为一个快速增长的消费市场。在数据集的最早几周,亚洲的全球支出占比约为百分之十三。随着时间的推移,这一份额翻了一番以上,在最近时期达到约百分之三十一。

按世界区域随时间推移的用量。全球使用量的每周份额分配到每个大洲。

语言分布

如上表所示,英语占据主导地位,所有 token 中超过 80%为英语使用。这反映了英语模型的普及性以及 OpenRouter 用户群体的开发者倾向。然而,其他语言,特别是中文、俄语和西班牙语,也构成了一个有意义的尾部。仅简体中文就占全球 token 的近 5%,这表明在双语或中文优先环境中,用户持续参与,尤其考虑到像 DeepSeek 和 Qwen 这样的中文 OSS 模型的增长。

对于模型构建者和基础设施运营商而言,跨区域可用性、跨语言、合规制度以及部署环境,正成为一个全球同步采用且本地优化的 LLM 世界中的基本要求。

LLM 用户留存分析

灰姑娘“玻璃鞋”现象

Claude 4 Sonnet
Gemini 2.5 Pro
Gemini 2.5 Flash
OpenAI GPT-4o Mini
Llama 4 Maverick
Gemini 2.0 Flash
DeepSeek R1
DeepSeek Chat V3-0324

用户留存率。留存率被定义为活动留存率,即用户在后续月份中返回即被计入,即使在此期间处于非活跃状态;因此,曲线可能会出现一些小的非单调波动。

这份留存率图表集合捕捉了主要模型中 LLM 用户市场的动态。初看之下,数据呈现出高流失率和快速队列衰减。然而,在这波动之下隐藏着一个微妙而更具意义的信号:一小部分早期用户队列随着时间的推移表现出持久的留存。我们将这些称为基础队列。

这些群体不仅仅是早期采用者;他们代表那些工作负载已经实现了深度和持久的工作负载—模型匹配的用户。一旦建立这种匹配,就会产生经济和认知惯性,这种惯性会抵制替代品,即使新的模型出现了也是如此。

我们引入了灰姑娘玻璃鞋效应作为描述这一现象的框架。该假设认为,在快速发展的 AI 生态系统中,存在着一系列高价值的工作负载,这些工作负载在连续的模型迭代中始终未能解决。每个新的前沿模型都会被用来"试穿"这些悬而未决的问题。当新发布的模型恰好匹配了之前未满足的技术和经济约束时,它就实现了完美的契合——这个比喻性的"玻璃鞋"。

对于那些工作负载最终"契合"的开发者或组织而言,这种匹配会形成强大的锁定效应。他们的系统、数据管道和用户体验都会锚定于第一个解决他们问题的模型。随着成本下降和可靠性提高,重新迁移平台的动力会急剧减弱。相反,那些找不到这种契合的工作负载仍然处于探索阶段,在不同模型之间迁移,寻找自己的解决方案。

从实际观察来看,这一模式在 2025 年 6 月的 Gemini 2.5 Pro 群体和 2025 年 5 月的 Claude 4 Sonnet 群体中可见,这两个群体在第五个月时仍保留了约 40%的用户,这远高于后来的群体。这些群体似乎对应于特定的技术突破(例如推理保真度或工具使用稳定性),这些突破最终使得之前不可能的工作负载得以实现。

  • • 率先解决即持久优势。 当某个模型率先解决关键任务时,传统的先发优势会变得尤为重要。早期采用者将模型嵌入到各个流程、基础设施和用户行为中,从而造成极高的转换摩擦。这会形成一个稳定的状态,即使出现新的替代方案,该模型仍能保持其基础用户群。
  • • 留存率作为能力转折的指标。 群体级别的留存模式是模型差异的经验信号。在一个或多个早期群体中持续的留存率表明存在有意义的能力转折——一个从不可行到可行的任务类别。缺乏这种模式表明能力相当且差异深度有限。
  • • 前沿窗口的时间限制。 竞争格局要求模型在狭窄的时间窗口内捕获基础用户。随着后续模型缩小能力差距,形成新的基础群体的概率急剧下降。"灰姑娘时刻"——模型和工作负载完美契合的时刻——因此是短暂的,但对长期采用动态具有决定性意义。

总而言之,基础模型能力的快速变化需要重新定义用户留存。每一代新模型的推出都会带来一个短暂的机会来解决之前未满足的工作负载。当这种匹配发生时,受影响的用户会形成基础群体:这些群体在后续模型推出时,其留存轨迹仍然保持稳定。

主导性发布异常现象。 OpenAI GPT-4o Mini 的图表极好地展现了这种现象。单一的基础用户群(2024 年 7 月,橙色线)在发布之初就建立了主导性的、稳定的工作负载模型匹配。所有后续用户群,在这一匹配关系建立且市场格局已定之后才出现,它们的行为模式都完全相同:它们都在底部波动并聚集。这表明建立这种基础匹配关系的机会窗口是独一无二的,并且只在模型被认为是“前沿”的那一刻出现。

不匹配的后果。 Gemini 2.0 Flash 和 Llama 4 Maverick 图表展示了一个警示故事,说明当这种初始匹配从未建立时会发生什么。与其他模型不同,没有表现优异的基础群体。每一个群体都表现同样糟糕。这表明这些模型从未被视为高价值、粘性工作负载的“前沿”。它们直接进入“足够好”的市场,因此未能锁定任何用户群体。类似地, DeepSeek 的混乱图表,尽管总体上取得了巨大成功,但仍难以建立稳定的基础群体。

回弹效应。 DeepSeek 模型呈现出更复杂的模式。它们的留存曲线显示出一种高度异常的现象:复活性跳跃。与典型的单调递减留存不同,几个 DeepSeek 群体在经历了一段流失期后,留存率出现明显上升(例如,DeepSeek R1 的 2025 年 4 月群体在 3 个月左右,以及 DeepSeek Chat V3-0324 的 2025 年 7 月群体在 2 个月左右)。这表明一些流失用户正在回归该模型。"回弹效应"表明,这些用户在尝试其他替代方案并通过竞争性测试后,确认 DeepSeek 提供了最优的、并且往往更适合其特定工作负载的匹配,这得益于其卓越的专业技术性能、成本效益或其他独特功能。

启示。 玻璃鞋现象将留存重新定义为理解能力突破的视角,而非结果。基础群体是真实技术进步的指纹:它们标记着人工智能模型从新奇过渡到必要的阶段。对于构建者和投资者而言,尽早识别这些群体可能是预测持久模型市场优势的最强信号。

成本与使用动态

使用模型的成本是影响用户行为的关键因素。在本节中,我们重点关注不同 AI 工作负载类别如何在成本-使用图谱中分布。通过检查各类别在对数-对数成本与使用量图中的聚集位置,我们识别出工作负载在低成本、高容量区域与高成本、专业领域集中的模式。我们还参考了杰文斯悖论效应的相似性,即低成本类别通常对应较高的总使用量,尽管我们并未尝试正式分析悖论或因果关系。

按类别划分的人工智能工作负载细分分析

日志成本与按类别划分的日志使用情况

上图散点图揭示了 AI 应用场景的明显分段,根据其总使用量(总 Token 数)和单位成本(每 1M Token 成本)进行映射。一个关键的初步观察是,两个轴都是对数刻度。这种对数刻度意味着图表上的小视觉距离对应着现实世界中的巨大倍数差异。

该图表在每 1M token 0.73 美元的中位成本处被一条垂直线分割,实际上创建了一个四象限框架,以简化按类别划分的 AI 市场。

请注意,这些终端成本与宣传的标价不同。高频工作负载受益于缓存,这会降低实际支出,并产生明显低于公开标价的实际价格。显示的成本指标反映了提示和完成令牌的混合费率,提供了更准确的视图,显示了用户实际支付的总成本。该数据集还排除了自带设备(BYOK)活动,以隔离标准化的平台中介使用,并避免来自定制基础设施设置的扭曲。

高端工作负载(右上角): 这个象限包含高成本、高使用率的应用,现在包括 technology 和 science ,正好位于交叉点。这些代表了有价值且高使用率的专业工作负载,用户愿意为性能或专业功能支付溢价。 Technology 是一个显著的外部值,其成本远高于其他任何类别。这表明 technology 作为一种用例(可能与复杂的系统设计或架构有关)可能需要远更强大和昂贵的模型进行推理,但它仍然保持着高使用量,表明其必要性。

大众市场销量驱动因素(左上角): 这个象限由高使用率和低廉的、低于或等于平均成本定义。这个领域由两个巨大的用例主导: roleplay , programming 以及 science 。

  • • 编程(Programming) 成为“杀手级专业”类别,使用量最高,同时具有高度优化的中位成本。
  • • 角色扮演(Roleplay) 的使用量巨大,几乎可与编程相媲美。这是一个惊人的见解:一个面向消费者的角色扮演应用程序所产生的参与量,与一个顶级专业应用程序相当。

这两个类别的巨大规模证实,专业生产力和对话娱乐都是 AI 的主要、巨大的驱动力。在这个象限中,成本敏感性正如之前所提到的,开源模型找到了一个显著的优势。

专业专家(右下角): 这个象限包含低容量、高成本的应用,包括 finance 、 academia 、 health 和 marketing 。这些是高风险、专业化的细分领域。总体容量较低是合理的,因为人们咨询 AI 处理“健康”或“金融”问题的频率远低于处理“编程”问题。用户愿意为这些任务支付显著溢价,可能是因为对准确性、可靠性和特定领域知识的需求极高。

专业用途(左下角): 这个象限包含低成本、低容量的任务,包括 translation 、 legal 和 trivia 。这些是功能优化、成本优化的工具。 Translation 在这个群体中容量最高,而 trivia 容量最低。它们的低成本和相对低容量表明这些任务可能已经高度优化、"解决"或商品化,有足够好的替代方案可以廉价获得。

如所知,在这张图表中, technology 是最显著的异常值。它在保持高使用量的同时,以显著的优势拥有最高的每 token 成本。这强烈表明存在一个愿意为高价值、复杂答案(例如系统架构、高级技术问题解决)支付高价格的细分市场。一个关键问题是,这种高价是由高用户价值(一个“需求端”机会)驱动,还是由高服务成本(一个“供给端”挑战)驱动,因为这些查询可能需要最强大的前沿模型。在 technology 中的“游戏”是为这个高价值市场提供服务。能够服务这个细分市场的提供者,可能通过高度优化、专业的模型,有可能捕捉到一个具有更高利润率的市场。

有效成本与 AI 模型使用情况

开源与闭源模型格局:成本与使用量对比(对数-对数刻度)。每个点代表 OpenRouter 上提供的模型,颜色按来源类型区分。闭源模型聚集在高成本、高使用量象限,而开源模型主导低成本、高容量区域。虚线趋势线几乎水平,显示成本与总使用量之间关联性有限。注:该指标反映的是提示词和完成词的混合平均,有效价格通常低于标价,因缓存效应。BYOK 活动被排除。

上图将模型使用情况与每 100 万 token 的成本(对数-对数刻度)进行映射,揭示了整体相关性较弱。为方便起见,x 轴映射了名义值。趋势线几乎呈水平,表明需求相对缺乏价格弹性;价格下降 10%仅对应使用量增加约 0.5-0.7%。然而,图表中的离散程度很大,反映了市场分割明显。呈现出两种截然不同的模式:OpenAI 和 Anthropic 的专有模型占据高成本、高使用量的区域,而 DeepSeek、Mistral 和 Qwen 等开源模型则分布在中低成本、高使用量的区域。这一模式支持一个简单的经验法则:闭源模型承担高价值任务,而开源模型承担高容量低价值任务。价格弹性弱表明,即使成本差异巨大,也无法完全转移需求;专有供应商对关键任务应用仍保留定价权,而开源生态系统从价格敏感用户那里吸收容量。

AI 模型市场图:成本与使用量(对数-对数刻度)。与上图类似,但每个点按模型提供者着色。

上图与之前的图相似,但显示了模型作者。出现了四种使用成本类型。高端领导者,如 Anthropic 的 Claude 3.7 Sonnet 和 Claude Sonnet 4,每 1M token 成本约为 2 美元,但仍达到高使用量,表明用户愿意为大规模的卓越推理和可靠性付费。高效巨头,如 Google 的 Gemini 2.0 Flash 和 DeepSeek V3 0324,将强劲性能与每 1M token 低于 0.40 美元的价格相结合,实现了相似的使用量,使其成为高容量或长上下文工作负载的默认选择。长尾模型,包括 Qwen 2 7B Instruct 和 IBM Granite 4.0 Micro,每 1M token 价格仅为几美分,但总使用量约为 10^2.9,反映了性能较弱、知名度有限或集成较少的限制。最后,高端专家,如 OpenAI 的 GPT-4 和 GPT-5 Pro,占据了高成本、低使用量的象限:每 1M token 成本约为 35 美元,使用量接近 10^3.4,它们被谨慎地用于专业、高风险的工作负载,在这些工作负载中,输出质量远比边际 token 成本更重要。

总体而言,散点图突显了 LLM 市场的定价能力并非均一。虽然更便宜的模型可以通过效率和整合驱动规模,但在高风险领域,高端产品仍然拥有强劲需求。这种碎片化表明市场尚未实现商品化,而通过延迟、上下文长度或输出质量实现差异化,仍然是一种战略优势的来源。

这些观察结果表明以下几点:

  • • 从宏观层面来看,需求缺乏弹性,但这掩盖了不同的微观行为。执行关键任务的 enterprises 会支付高价(因此这些模型使用率高)。另一方面,爱好者和开发流程对成本非常敏感,会涌向更便宜的模型(导致高效模型使用量大增)。
  • • 有一些杰文斯悖论的证据:使某些模型非常便宜(且快速)导致人们用它们处理更多任务,最终消耗更多总 token。我们在高效巨头群体中看到这一点:随着每 token 成本下降,这些模型无处不在并被集成,总消耗激增(人们运行更长的上下文、更多迭代等)。
  • • 质量和能力往往胜过成本: 昂贵模型(Claude、GPT-4)的高使用量表明,如果模型显著更好或有信任优势,用户会承担更高成本。这些模型通常集成在流程中,相对于它们产生的价值,成本可以忽略不计(例如,节省开发者一小时时间的代码远值几美元的 API 调用)。
  • • 相反,仅仅价格低廉是不够的,模型还必须具有差异化优势和足够强大的能力。许多价格接近于零的开源模型之所以仍然无人问津,是因为它们虽然性能尚可,但无法与实际工作负载需求完美匹配,或者可靠性不足,因此开发者不愿将其深度集成到自己的系统中。

从运营商的角度来看,一些战略模式逐渐显现。像 Google 这样的提供商在分层服务上投入巨大(尤其是 Gemini Flash 和 Pro),明确地权衡速度、成本和能力。这种分层通过价格敏感性和任务关键性实现市场细分:轻量级任务被路由到更便宜、更快的模型;高级模型服务于复杂或容忍延迟的工作负载。针对用例和可靠性的优化往往与“削减”价格一样具有影响力。在生产环境中,一个更快、专门构建的模型可能比一个更便宜但不可预测的模型更受欢迎。这使焦点从每 token 成本转移到每成功结果成本。相对平缓的需求弹性表明 LLMs 尚未成为商品——许多用户愿意为质量、能力或稳定性支付溢价。差异化仍然具有价值,尤其是在任务结果比边际 token 节省更重要时。

讨论

这项实证研究提供了关于 LLMs 实际使用情况的数据驱动视角,突出了几个主题,这些主题使人们对 AI 部署的传统观点进行了细致的补充:

  1. 1. 多模型生态系统。 我们的分析表明,没有单一模型在所有使用场景中占据主导地位。相反,我们观察到的是一个丰富的多模型生态系统,其中封闭模型和开放模型都占据了相当大的市场份额。例如,尽管 OpenAI 和 Anthropic 的模型在许多编程和知识任务中表现领先,但像 DeepSeek 和 Qwen 这样的开源模型共同服务了相当大比例的总 token(有时超过 30%)。这表明 LLM 的使用未来可能是模型无关和异构的。对于开发者而言,这意味着需要保持灵活性,整合多个模型并为每项任务选择最佳模型,而不是将所有赌注押在单一模型的优越性上。对于模型提供者而言,这强调了竞争可能来自意想不到的地方(例如,一个社区模型可能会侵蚀你的部分市场份额,除非你不断改进和差异化)。
  2. 2. 超越生产力的使用多样性。 一个令人惊讶的发现是角色扮演和娱乐导向的使用量巨大。超过一半的开源模型使用是用于角色扮演和故事讲述。即使在专有平台上,早期 ChatGPT 的使用中也有相当一部分是休闲和创造性的,在专业用例增长之前。这反驳了 LLMs 主要被用于编写代码、邮件或摘要的假设。实际上,许多用户与这些模型互动是为了陪伴或探索。这具有重要影响。它突显了面向消费者的应用的一个巨大机会,这些应用融合了叙事设计、情感参与和互动性。它预示着个性化新领域——进化个性、记住偏好或维持长篇互动的智能体。它还重新定义了模型评估指标:成功可能更多地取决于一致性、连贯性以及在维持引人入胜对话方面的能力,而较少取决于事实准确性。最后,它为 AI 与娱乐 IP 之间的跨界打开了道路,在互动故事、游戏和创作者驱动的虚拟角色方面具有潜力。
  3. 3. 代理与人类:代理推理的兴起。 LLM 的使用正从单轮交互转向代理推理,模型在多步骤中规划、推理和执行。它们不再只是生成一次性响应,而是协调工具调用、访问外部数据,并通过迭代优化输出以达成目标。早期证据显示多步骤查询和链式工具使用的增加,这些我们代理为代理使用。随着这种范式的扩展,评估将从语言质量转向任务完成和效率。下一个竞争前沿是模型如何有效执行持续推理,这一转变可能最终重新定义大规模代理推理的实际含义。
  4. 4. 地理展望。 LLM 的使用正变得越来越全球化和去中心化,在北美以外的地区迅速增长。亚洲在总 token 需求中的份额已从约 13%上升至 31%,反映了企业采用和创新力的增强。与此同时,中国已成为一支重要力量,不仅通过国内消费,还通过生产全球竞争力的模型。更广泛的启示:LLM 必须具有全球适用性,在语言、语境和市场方面表现良好。下一阶段的竞争将取决于文化适应性和多语言能力,而不仅仅是模型规模。
  5. 5. 成本与使用动态。 目前 LLM 市场似乎还未像商品那样运作:价格本身难以解释使用情况。用户在成本与推理质量、可靠性及功能广度之间进行权衡。封闭模型继续占据高价值、与收入相关的任务,而开放模型主导低成本、高容量的任务。这形成了一种动态平衡——这种平衡更多地由持续的下压力量定义,而非稳定性。开源模型不断推动效率前沿,特别是在推理和编码领域(例如 Kimi K2 Thinking),快速迭代和 OSS 创新缩小了性能差距。开源模型的每项改进都在压缩专有系统的定价能力,迫使它们通过更优越的集成、一致性和企业支持来证明溢价价值。由此产生的竞争快速变化、不对称且不断演变。随着时间的推移,随着质量趋同加速,价格弹性可能会增加,将原本差异化的市场转变为更流动的市场。
  6. 6. 用户留存与灰姑娘玻璃鞋现象。 随着基础模型以跨越式而非渐进式发展,用户留存已成为防御性的真正衡量标准。每一次突破都会创造一个短暂的发布窗口期,在此期间模型能够完美适配高价值工作负载(即灰姑娘玻璃鞋时刻),一旦用户找到这种适配,便会留存下来。在这种范式下,产品市场适配等于工作负载模型适配:率先解决真实痛点会驱动深度、粘性的采用,因为用户会围绕该能力构建工作流程和习惯。此时转换变得既昂贵又困难,无论是在技术层面还是行为层面。对于构建者和投资者而言,需要关注的信号不是增长,而是留存曲线,即通过模型更新留存下来的基础用户群体。在一个日益快速变化的市场中,尽早捕捉这些重要的未满足需求,决定了谁能在下一次能力飞跃后得以幸存。

LLMs 正逐渐成为跨领域推理类任务的重要计算基础,涵盖编程到创意写作等各个方面。随着模型的持续进步和部署的扩展,准确把握真实世界的使用动态对于做出明智决策至关重要。人们使用 LLMs 的方式并不总是符合预期,并且在不同国家、不同州、不同应用场景中存在显著差异。通过大规模观察使用情况,我们可以将 LLM 的影响力建立在现实基础上,确保后续发展,无论是技术改进、产品功能还是法规,都能与实际使用模式和需求保持一致。我们希望这项工作能为更多实证研究奠定基础,并鼓励人工智能社区在构建下一代前沿模型的过程中,持续测量和学习真实世界的使用情况。

局限性

这项研究反映了在单一平台(即 OpenRouter)上观察到的模式,并且是在有限的时间窗口内进行的,因此只能提供对更广泛生态系统的部分视角。某些维度,如企业使用情况、本地托管部署或封闭的内部系统,仍然超出了我们的数据范围。此外,我们的一些数据分析依赖于代理指标:例如,通过多步或工具调用识别代理推理,或根据账单而非验证位置数据推断用户地理位置。因此,这些结果应被解释为指示行为模式的参考,而非对潜在现象的精确测量。

结论

这项研究从实证角度展示了大型语言模型如何嵌入到全球计算基础设施中。它们现在已成为工作流程、应用程序和代理系统的核心组成部分,改变了信息的生成、中介和消费方式。

过去一年推动了该领域对推理方式的根本性转变。o1 级模型的涌现使扩展性思考和工具使用成为常态,将评估从单次基准测试转向基于过程的指标、延迟成本权衡以及在编排下的任务成功度。推理已成为衡量模型规划验证能力以提供更可靠结果的有效性的标准。

数据显示,LLM 生态系统在结构上具有多样性。没有单一模型或供应商占据主导地位;相反,用户根据能力、延迟、价格和信任等不同维度,根据具体情境选择系统。这种异质性不是短暂的阶段,而是市场的根本属性。它促进了快速迭代,并减少了系统对任何单一模型或技术栈的依赖。

推理本身也在发生变化。多步骤和工具关联交互的兴起标志着从静态完成向动态编排的转变。用户通过串联模型、API 和工具来达成复合目标,催生了所谓的智能推理。有充分理由相信,智能推理将超越,如果它尚未超越的话,人类的推理能力。

从地域上看,格局正变得越来越分散。亚洲的使用份额持续扩大,中国特别成为了一个既是模型开发者又是出口国的典范,这体现在 Moonshot AI、DeepSeek 和 Qwen 等公司的崛起。非西方开放权重模型的成功表明,LLMs 确实是全球性的计算资源。

实际上,o1 并没有结束竞争。远非如此。它扩展了设计空间。该领域正朝着系统思维而非单体赌注、向工具化而非直觉、向实证使用分析而非排行榜差异的方向发展。如果过去一年证明了自主推理在大规模上是可行的,那么下一年的重点将聚焦于运营卓越:衡量实际任务完成情况、在分布变化下减少方差,以及使模型行为与生产规模工作负载的实际需求保持一致。

附录

类别子组成详情

下图分解了三个主要领域:角色扮演、编程和技术内部的子标签结构。每个领域都表现出独特的内部模式,揭示了用户在这些类别中如何与 LLMs 互动。

角色扮演(子标签)。标记分为角色扮演游戏场景(58%)和其他创意对话(角色聊天、叙事合写等)。
编程(子标签)。常规编码任务占多数(没有单一特定领域占主导),网页开发、数据科学等领域占比较小,表明在编程主题上广泛使用。
技术(子标签)。主要由智能助手和生产力软件用例主导(合计约 65%),其次是 IT 支持和消费电子查询。

三个领域(角色扮演、技术、编程)均表现出独特的内部模式,反映了用户在各个主要领域不同子类别中如何与 LLMs 互动。

https://openrouter.ai/state-of-ai

如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^

相关好文推荐:

智能体系统何时以及为何有效 | Google Research

Moltbot(Clawdbot)做对了什么?

一个月内把编码主力交给 Agent 的真实体验 | karpathy

用于线性注意力的 Gated DeltaNet | Sebastian Raschka

DeepSeek的多头潜在注意力(MLA) | Sebastian Raschka

理解推理型 LLM | Sebastian Raschka

Agent 设计模式 | Lance

Manus 中的上下文工程 | Lance

引入嵌套学习(Nested Learning):一种用于持续学习的全新机器学习范式

如何构建多智能体研究系统

真正决定 AI 系统上限的是什么?

软件 2.0 | karpathy

2025年 LLM 年度回顾 | karpathy

苦涩的教训

0条留言

留言