智能体系统何时以及为何有效 | Google Research

作者：Google Research | 日期：2026年1月28日

通过对 180 种智能体配置进行受控评估，我们首次推导出了智能体系统的定量扩展规律，揭示了多智能体协作在可并行任务上能够显著提升性能，但在顺序型任务上反而会降低性能；同时，我们还引入了一种预测模型，能够为 87% 的未见任务识别出最优的系统架构。

AI 智能体——即能够进行推理、规划并采取行动的系统——正在成为现实世界 AI 应用中的一种常见范式。从编码助手到个人健康教练，整个行业正从一次性问答，转向持续的、多步骤的交互。长期以来，研究人员一直使用成熟的指标来优化传统机器学习模型的准确率，但智能体引入了一层新的复杂性。与孤立预测不同，智能体必须在持续、多步骤的交互中运行，其中任何一次错误都可能在整个工作流中被级联放大。这一转变迫使我们超越标准的准确率指标，转而思考一个问题：我们究竟该如何设计这些系统，才能获得最优性能？

实践者往往依赖经验法则，例如“智能体越多越好”的假设，认为增加专业化智能体就会持续带来更好的结果。例如，“More Agents Is All You Need”报告称，大语言模型的性能会随着智能体数量增加而扩展，而协作式扩展研究则发现，多智能体协作“往往通过集体推理超越任何单个个体”。

在我们的新论文“迈向可扩展智能体系统的科学”中，我们对这一假设提出了挑战。通过对 180 种智能体配置进行大规模、受控的评估，我们推导出了首批关于智能体系统的定量扩展原则，揭示了“更多智能体”的方法往往会触及性能上限，如果没有与任务的具体属性相匹配，甚至可能导致性能下降。

定义“智能体式”的评测

为了理解智能体如何扩展，我们首先定义了什么样的任务才是“智能体式”的。传统的静态基准衡量的是模型的知识水平，但它们无法捕捉部署过程中的复杂性。我们认为，智能体任务必须具备以下三个特定属性：

1. 持续的、多步骤的外部环境交互。

2. 在部分可观测条件下进行迭代式信息收集。

3. 基于环境反馈进行自适应策略调整。

我们在四个多样化的基准上评估了五种典型架构：一种单智能体系统（SAS）以及四种多智能体变体（独立式、集中式、去中心化式和混合式），这些基准包括 Finance-Agent（金融推理）、BrowseComp-Plus（网页导航）、PlanCraft（规划）以及 Workbench（工具使用）。智能体架构定义如下：

• 单智能体（SAS）： 一个独立的智能体，使用统一的记忆流，顺序执行所有推理与行动步骤。
• 独立式（Independent）： 多个智能体并行处理子任务，彼此之间不进行通信，仅在最终阶段聚合结果。
• 集中式（Centralized）： 一种“中心—辐射”模型，由一个中央编排器向工作智能体分派任务，并综合它们的输出。
• 去中心化式（Decentralized）： 一种点对点网状结构，智能体之间直接通信，以共享信息并达成共识。
• 混合式（Hybrid）： 结合分层监督与点对点协作，在集中控制与灵活执行之间取得平衡。

本研究中评估的五种典型智能体架构总结，包括它们的计算复杂度、通信开销以及协作机制。k = 每个智能体的最大迭代次数，n = 智能体数量，r = 编排器轮次，d = 辩论轮次，p = 同伴通信轮次，m = 每轮平均同伴请求数。通信开销统计的是智能体之间的消息交换次数。独立式提供最大化的并行能力且协调最少；去中心化式使用顺序的辩论轮次；混合式则结合了编排器控制与定向的同伴通信

结果：“更多智能体”的迷思

为了量化模型能力对智能体性能的影响，我们在三大主流模型家族上评估了这些架构：OpenAI GPT、Google Gemini 以及 Anthropic Claude。结果揭示了模型能力与协作策略之间存在着复杂关系。如下面的图所示，尽管性能通常会随着模型能力的提升而上升，但多智能体系统并非通用解法——它们可能会显著提升性能，也可能在某些配置下出人意料地降低性能。