论文Towards a Science of Scaling Agent Systems关心的是一个现在工程界天天在做、但几乎没人系统量化的问题:多 Agent 系统到底什么时候有用?什么时候反而拖后腿?
现在很多应用不再是“一问一答”,而是让大模型作为“Agent”在环境里反复:观察 → 思考 → 调用工具 / 行动 → 再观察。实践中常见的说法是“多找几个 Agent 一起合作一定比一个强”,但之前大部分验证都在静态题目上,比如编程题、数学题,这类任务根本不需要与环境持续交互。论文认为:
- 真正的 Agent 式任务(比如网页浏览、金融分析、游戏规划、复杂办公流程)有三大特点:多步交互、部分可观测、需要根据反馈持续改策略。
- 在这类任务上,多 Agent 会引入“沟通成本、上下文碎片化、错误级联”等新问题,理论上不可能永远是好事。
作者想做的是:建立一套“Agent 系统缩放的科学”——用实验和统计模型,定量说明:Agent 数量、架构、模型能力、任务类型之间是怎么相互作用的。
论文作者为Yubin Kim, Ken Gu, Chanwoo Park, Chunjong Park, Samuel Schmidgall, A. Ali Heydari, Yao Yan, Zhihan Zhang, Yuchen Zhuang, Mark Malhotra, Paul Pu Liang, Hae Won Park, Yuzhe Yang, Xuhai Xu, Yilun Du, Shwetak Patel, Tim Althoff, Daniel McDuff, Xin Liu,来自Google Research, Google DeepMind, Massachusetts Institute of Technology(MIT)。
一、研究对象与实验设计
论文系统比较了 5 种 Agent 架构:
- 单 Agent 系统(SAS):只有一个 Agent,所有感知、规划和动作都在一条记忆链里完成。
- 多 Agent – 独立型(Independent):多个 Agent 各干各的,中间不交流,最后投票或汇总。
- 多 Agent – 集中式(Centralized):有一个协调者负责分工、收集和汇总,子 Agent 之间不互相说话。
- 多 Agent – 去中心化(Decentralized):所有 Agent 可以多轮互相交流、辩论。
- 多 Agent – 混合式(Hybrid):既有协调者,又允许部分 Agent 之间直接沟通。
在 任务方面,选了四类典型的 Agent 式基准:
- Web 浏览与信息检索(BrowseComp-Plus)
- 金融分析与决策(Finance-Agent)
- 游戏环境中的规划与合成(PlanCraft,类似 Minecraft 式任务)
- 综合办公 / 工具链任务(Workbench)
在 模型方面,覆盖了三大主流家族,每家多档能力:
- OpenAI(如 GPT-5 系列)
- Google(如 Gemini 2.0/2.5 系列)
- Anthropic(如 Claude Sonnet 系列)
最关键的是,作者做了严格的“受控实验”:
- 各个架构在同一任务上使用完全一样的工具接口、提示结构和总 token 预算;
- 只改变:模型能力和协调结构。
这样可以比较清楚地把“架构带来的差异”从“提示写得好不好、算力给得多不多”等干扰因素中剥离出来。整体一共跑了 180 种配置,每种多次重复,统计成功率和行为特征。
二、主要实验发现(现象层面的结论)
整体结果非常“打脸”那句“多 Agent 一定更好”:
- 从四个任务平均来看,多 Agent 架构的平均收益其实是略微负数。
- 具体到每个任务,差异非常大,甚至方向相反:
- 金融分析(Finance-Agent)
- 多 Agent,尤其是集中式和去中心化结构,能让成功率提升非常明显,有的配置能比单 Agent 提高接近一倍。
- 原因:这类任务可以自然拆分成子分析(看资产负债表、看现金流、看行业对比等),分工+汇总的模式非常适配。
- 办公工作流任务(Workbench)
- 多 Agent 效果很有限,有时略好一点,有时略差一点,整体接近“打平”。
- 说明:任务确实有工具调用和多步逻辑,但可分解性有限,多 Agent 带来的额外协调在很多情况下抵消了潜在收益。
- Web 浏览导航(BrowseComp-Plus)
- 纯独立多 Agent(大家各自乱逛最后投票)效果反而很差;
- 有一定交流的去中心化架构能略微提升成功率。
- 理解为:在信息噪声大的网络环境里,需要互相分享路径和证据,单纯“多次盲试+投票”会更容易集体走错路。
- 游戏规划任务(PlanCraft)
- 几乎所有多 Agent 架构在这里都明显退步,有的比单 Agent 成功率低一大截。
- 这类任务是典型的强顺序依赖:每一步行为改变环境,后面必须紧密接着前面的状态推演;多 Agent 参与后,把这条连续的推理链“切碎”了,导致上下文不连贯、错误难以纠正。
用一句话概括现象:
多 Agent 有时能救场(尤其是可分解的分析任务),有时基本白忙活,有时会把好好的单 Agent 搞崩。
三、缩放规律与关键机制(原因层面的总结)
为了把这些现象变成可预测的规律,作者构建了一个统计模型,把每个配置下的性能表示成多种因素的函数。模型中考虑了:
- 模型自身能力(一个综合“智力指数”);
- Agent 数量;
- 任务工具数量和复杂度;
- 单 Agent 的基线表现;
- 多 Agent 协作过程中的实测指标,如:
- 协调开销(比起单 Agent 多用了多少 token / 步数);
- 协调效率(单位开销换来的成功率);
- 错误放大程度(错误在多 Agent 里被放大的倍数);
- 冗余度(不同 Agent 输出有多少重复内容);
- 消息密度(每步平均有多少消息传来传去)。
结果模型能解释一半以上的性能差异,在没见过的新任务上也有不错的预测力。基于这个分析,论文提炼出三条非常关键的“规律”:
- 工具–协调权衡
- 当任务需要用很多工具(比如一个大型软件工程工作台要调用十几种工具)时,多 Agent 的协调开销会急剧放大。
- 因为每多一个 Agent,就多出一条“沟通渠道”和一份“理解上下文的成本”;全体为了同步各种工具调用结果,会大量消耗上下文和推理能力。
- 结果是:工具越多,多 Agent 越容易“忙于沟通、无暇思考”。
- 能力天花板效应
- 如果单 Agent 在某个任务上的表现已经挺高了(论文经验值大约是准确率超过四成多一点),再加 Agent 通常是负收益:
- 因为能改善的空间有限;
- 但协作开销、错误传播却稳稳在那里。
- 换个更实用的说法: 先跑一个高质量的单 Agent,如果已经“中上水平”,就要非常谨慎地再叠多 Agent。
- 如果单 Agent 在某个任务上的表现已经挺高了(论文经验值大约是准确率超过四成多一点),再加 Agent 通常是负收益:
- 架构依赖的错误放大
- 不同架构对错误的处理能力差异巨大:
- 独立多 Agent 几乎没有中间纠错环节,谁犯的错都可能被最后投票“放大”,错误放大倍数最大;
- 去中心化架构中大家会互相辩论,理论上能纠错,但现实中讨论本身也很耗资源;
- 集中式和混合式架构因为有明确的“协调者”,可以在汇总前做一定检查和过滤,错误放大相对可控。
- 尤其在需要很多工具、状态复杂的环境里,只要没有有效的“验证瓶颈”,多 Agent 很容易形成“错误共识”。
- 不同架构对错误的处理能力差异巨大:
四、对实际工程的启示
这篇论文的工程意义非常直接,可以总结成几条“实战建议”:
- 不要预设“多 Agent 一定更强”
- 对于强顺序的规划任务(流程控制、程序合成、游戏策略等),单 Agent 通常更可靠。
- 总是先跑单 Agent 基线
- 如果单 Agent 表现已经不错,就优先把精力放在:
- 提高工具质量、状态表示;
- 做好记忆与检索;
- 优化提示与流程;
- 而不是急着“把系统包成一个 Agent 团队”。
- 如果单 Agent 表现已经不错,就优先把精力放在:
- 识别任务是否“能拆开做”
- 金融分析这类可以自然拆成多个子任务的场景,集中式或混合式多 Agent 往往有真实收益。
- 如果任务本身拆不开,只能沿着一条长链一步一步推下去,多 Agent 通常是负担。
- 成本和风险要算在内
- 真正的部署场景下,不只是要成功率,还要考虑:
- token 和调用成本;
- 延迟;
- 错误一旦发生会不会被放大。
- 论文的缩放框架给了一种“量化算账”的方式,帮助在这些指标之间做权衡。
- 真正的部署场景下,不只是要成功率,还要考虑:
五、局限与未来方向
作者也坦率地指出:
- 当前只覆盖了四个基准任务,虽然方向多样,但仍然不能囊括所有真实业务;
- Agent 数量和架构拓扑还算“中等规模”,未来大规模 Agent 团队可能有新的现象;
- 架构设计目前仍由人手工设定,未来可以引入自动搜索,让系统自己学会“选队友、选队形”;
- 随着基础模型越来越强,今天必须 Agent 化的任务,将来可能一条长 prompt 就搞定,“什么算 Agent 式任务”本身会不断变化。
总体来说,这篇论文的核心贡献是:把原本非常凭直觉的多 Agent 架构选择,变成了一个可以度量、可以建模、可以做预测的科学问题,对今后如何理性地构建和扩展 Agent 系统给出了第一代“缩放指南”。