智能体系统何时以及为何有效 | Google Research
作者:Google Research | 日期:2026年1月28日
通过对 180 种智能体配置进行受控评估,我们首次推导出了智能体系统的定量扩展规律,揭示了多智能体协作在可并行任务上能够显著提升性能,但在顺序型任务上反而会降低性能;同时,我们还引入了一种预测模型,能够为 87% 的未见任务识别出最优的系统架构。
AI 智能体——即能够进行推理、规划并采取行动的系统——正在成为现实世界 AI 应用中的一种常见范式。从编码助手到个人健康教练,整个行业正从一次性问答,转向持续的、多步骤的交互。长期以来,研究人员一直使用成熟的指标来优化传统机器学习模型的准确率,但智能体引入了一层新的复杂性。与孤立预测不同,智能体必须在持续、多步骤的交互中运行,其中任何一次错误都可能在整个工作流中被级联放大。这一转变迫使我们超越标准的准确率指标,转而思考一个问题:我们究竟该如何设计这些系统,才能获得最优性能?
实践者往往依赖经验法则,例如“智能体越多越好”的假设,认为增加专业化智能体就会持续带来更好的结果。例如,“More Agents Is All You Need”报告称,大语言模型的性能会随着智能体数量增加而扩展,而协作式扩展研究则发现,多智能体协作“往往通过集体推理超越任何单个个体”。
在我们的新论文“迈向可扩展智能体系统的科学”中,我们对这一假设提出了挑战。通过对 180 种智能体配置进行大规模、受控的评估,我们推导出了首批关于智能体系统的定量扩展原则,揭示了“更多智能体”的方法往往会触及性能上限,如果没有与任务的具体属性相匹配,甚至可能导致性能下降。
定义“智能体式”的评测
为了理解智能体如何扩展,我们首先定义了什么样的任务才是“智能体式”的。传统的静态基准衡量的是模型的知识水平,但它们无法捕捉部署过程中的复杂性。我们认为,智能体任务必须具备以下三个特定属性:
1. 持续的、多步骤的外部环境交互。
2. 在部分可观测条件下进行迭代式信息收集。
3. 基于环境反馈进行自适应策略调整。
我们在四个多样化的基准上评估了五种典型架构:一种单智能体系统(SAS)以及四种多智能体变体(独立式、集中式、去中心化式和混合式),这些基准包括 Finance-Agent(金融推理)、BrowseComp-Plus(网页导航)、PlanCraft(规划)以及 Workbench(工具使用)。智能体架构定义如下:
-
• 单智能体(SAS): 一个独立的智能体,使用统一的记忆流,顺序执行所有推理与行动步骤。 -
• 独立式(Independent): 多个智能体并行处理子任务,彼此之间不进行通信,仅在最终阶段聚合结果。 -
• 集中式(Centralized): 一种“中心—辐射”模型,由一个中央编排器向工作智能体分派任务,并综合它们的输出。 -
• 去中心化式(Decentralized): 一种点对点网状结构,智能体之间直接通信,以共享信息并达成共识。 -
• 混合式(Hybrid): 结合分层监督与点对点协作,在集中控制与灵活执行之间取得平衡。
结果:“更多智能体”的迷思
为了量化模型能力对智能体性能的影响,我们在三大主流模型家族上评估了这些架构:OpenAI GPT、Google Gemini 以及 Anthropic Claude。结果揭示了模型能力与协作策略之间存在着复杂关系。如下面的图所示,尽管性能通常会随着模型能力的提升而上升,但多智能体系统并非通用解法——它们可能会显著提升性能,也可能在某些配置下出人意料地降低性能。
下面的结果比较了五种架构在不同领域(如网页浏览和金融分析)中的表现。箱线图表示每种方法的准确率分布,而百分比则表示多智能体团队相对于单智能体基线的性能提升(或下降)。这些数据表明,增加智能体在可并行任务上能够带来巨大收益,但在更具顺序性的工作流中,往往会出现收益递减,甚至性能下降。
对齐原则
在金融推理等可并行任务中(例如,不同智能体可以同时分析收入趋势、成本结构以及市场对比),集中式协作相较于单智能体将性能提升了 80.9%。将复杂问题分解为子任务的能力,使智能体能够更高效地工作。
顺序惩罚
相反,在需要严格顺序推理的任务中(例如 PlanCraft 中的规划任务),我们测试的所有多智能体变体的性能均出现了 39%–70% 的下降。在这些场景下,通信开销会打碎推理过程,导致留给实际任务的“认知预算”不足。
工具使用瓶颈
我们识别出了一种“工具—协作权衡”。随着任务需要更多工具(例如,一个可访问 16 种以上工具的编码智能体),多智能体协作所带来的“协调税”会以不成比例的方式增长。
将架构视为一种安全特性
也许对现实部署而言最重要的是,我们发现了架构与可靠性之间的关系。我们测量了错误放大效应,即单个智能体的错误传播到最终结果中的放大倍数。
我们发现,独立式多智能体系统(智能体并行工作且彼此不交流)会将错误放大 17.2 倍。由于缺乏相互检查的机制,错误会不受约束地级联传播。集中式系统(带有编排器)将这种放大效应限制在仅 4.4 倍。编排器有效地充当了一个“验证瓶颈”,在错误传播之前将其捕获。
用于智能体设计的预测模型
在回顾分析之外,我们还开发了一种预测模型(R² = 0.513),该模型利用工具数量、任务可分解性等可测量的任务属性,来预测哪种架构表现最佳。该模型能够为 87% 的未见任务配置正确识别出最优的协作策略。
这表明,我们正在迈向一门新的智能体扩展科学。开发者不再需要凭经验猜测是使用一群智能体还是单个强大的模型,而是可以根据任务的属性,特别是其顺序依赖性和工具密度,做出有原则的工程决策。
结论
随着 Gemini 等基础模型的持续进步,我们的研究表明,更聪明的模型并不会取代多智能体系统的需求,而是在架构正确的前提下,加速这一需求。通过从经验法则转向定量原则,我们可以构建下一代 AI 智能体系统,它们不仅数量更多,而且更聪明、更安全、更高效。
如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^
相关好文推荐:
D4RT:教会 AI 以四个维度看世界 | DeepMind
一个月内把编码主力交给 Agent 的真实体验 | karpathy
用于线性注意力的 Gated DeltaNet | Sebastian Raschka
DeepSeek的多头潜在注意力(MLA) | Sebastian Raschka
嵌入模型检索面临严重限制 | DeepLearning.AI
理解用于评估大语言模型(LLM)的四种主要方法 | Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(三)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(二)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(一)| Sebastian Raschka
递归语言模型(Recursive Language Models) | Alex Zhang
重新构想 LLM 记忆:将上下文作为训练数据,使模型能够在测试时学习 | Nvidia
引入嵌套学习(Nested Learning):一种用于持续学习的全新机器学习范式

0条留言