大模型在推理任务中已可调⽤代码解释器与搜索等外部工具,但“何时用文本推理、何时写代码、何时检索、以及如何把这些能力组合起来”并无清晰实证范式。现有 Code Interpreter 的实现常在“文本 vs 代码”的取舍上失衡,且学界对“代码+搜索+自推理”的联合利用仍缺系统方法与对比。论文TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture提出的 TUMIX(Tool-Use Mixture)正是为了解决“在测试时,以多代理并行+多轮迭代方式,充分调度与混合工具使用策略,从而稳态提升推理表现”的问题。其核心主张是:与其反复采样同一种最强代理,不如并行运行多种“工具使用路径和推理风格”不同的代理,并在多轮中共享中间答案、再聚合选择,以更好地覆盖解空间并降低“单一路径错误收敛”的风险。
论文作者为Yongchao Chen, Jiefeng Chen, Rui Meng, Ji Yin, Na Li, Chuchu Fan, Chi Wang, Tomas Pfister, Jinsung Yoon,来自MIT, Harvard和Google。
一、方法框架:TUMIX 的多代理工具混合与轮次迭代
1)代理池与多样性:作者预设了由 15 个“⼯具使⽤策略各异”的代理组成的代理池,覆盖纯文本 CoT、仅代码、仅搜索、双工具(代码+搜索)、受引导的双工具等类型;具备搜索权限的代理还包含三种搜索变体(如 API、模型自带检索或二者组合)。这种“异质策略的并行探索”是 TUMIX 的方法基石。
2)消息传递式的多轮细化:每一轮,所有代理都会读取“原始问题 + 上一轮所有代理的答案”,在各自的工具与策略下产出新答案;这等价于在一个相关专家网络中做顺序决策与信息传递。早期轮次平均分数会上升,但覆盖率(至少一个答案正确的概率)会随轮次单调下降,反映“多样性逐步坍缩与共识化”的动态。
3)终止与选择:鉴于后期轮次往往收益递减甚至伤害精度,TUMIX 设计了“LLM 作为裁判”的自适应停⽌策略(至少跑满 2 轮),再以多数投票产出最终答案。实验显示,该策略在几乎不损失峰值精度的情况下,把推理调用次数降到原始的约 49%(token 成本约 46%)。
二、关键机制与洞见
1)多样性与质量比“规模”更关键:在相同成本下,增加代理类型数量与策略异质性,优于对单一强代理的重复采样;给代理配备代码与搜索两类互补工具,能显著提升覆盖率与平均分。
2)迭代的双刃剑:轮次增加能提升早期质量,但也加速“收敛到同一答案”(可能对也可能错),导致覆盖率下降——因此需要“在恰当轮次止损”。
3)终止与答案选择:以 LLM 估计“再多一轮的期望边际收益”并据此决定停止,明显优于简单的“连续两轮多数稳定即停”等规则;选择层面,多数投票或 LLM-Selector 在早期分歧大时优于随机,后期收敛后三者差别趋小。
三、实验设置
基准:覆盖 HLE(Humanity’s Last Exam,2500 道跨学科极难题,含文本与多模态子集)、GPQA Diamond(198 道专家命题多选题,生物/物理/化学)与 AIME 2024&2025(共 60 题高难中学竞赛数学)。报告值均为三次独立运行的平均。
对比方法与评测:作者对比 Majority Vote、GSA、Self-Reflection、SETS、Self-MoA、Symbolic-MoE、DEI、SciMaster 等代表性“测试时扩展(TTS)”范式,并确保这些基线在公平设置下也能使用代码与搜索工具;评测统一以标准答案判定,若最终答案为代码则执行脚本(≤60s)取结果。
四、主要结果
在 Gemini-2.5-Pro 与 Gemini-2.5-Flash 两个推理底模上,TUMIX 在 HLE、GPQA、AIME 24&25 三大基准上整体优于所有强基线;图 1 显示,相较无 TTS 的“单次推理”,TUMIX 与 TUMIX+ 的分数显著提升;在成本可比的设置下,TUMIX 优于 Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA 等代表性方法。
更细地看数值:例如在 HLE(Pro)中,无 TTS 为 21.6,若换成 TUMIX 达到 32.3,进一步放大计算的 TUMIX+ 为 34.1;在 GPQA(Pro)TUMIX 为 87.9/88.1(TUMIX/TUMIX+);AIME(Pro)上 TUMIX/TUMIX+ 为 96.7。Flash 也呈现同样趋势(HLE 21.2→23.1;GPQA 77.3→82.1;AIME 83.3→86.7)。
五、消融与扩展:LLM 生成新代理与“多少个代理才够”
作者进一步用 Gemini-2.5-Pro 自动“以现有代码样例为蓝本”生成 25 个新代理,从中选出 15 个表现好的,与原始 15 个人工代理合并成 30 个代理池,再随机采样 15 个组成新组群。统计 25,000 组的覆盖率与均分后,发现不少“混合组”超越原始组;作者据联合指标挑出 Top-3 组,其在 HLE 与 GPQA 上均优于初版 TUMIX。说明:用 LLM 自动设计“更异质、更高质”的代理,能在不增加成本下带来额外提升。
同时,作者观察“代理类型数”带来的边际收益:当类型数 <12 时,准确率上升较快;超过该阈值后收益变小,原因是候选答案过多反而加大“在轮次内做正确选择”的难度。实践上选 15 种代理在“性能/成本”间较均衡。
六、与相关工作的关系与差异
TUMIX 连接了两条文献线索:(a)测试时扩展(多样采样、反思自校、代理混合、专家选择等),但这些工作大多未深度融入工具使用;(b)工具增强(代码与搜索、检索强化、工具选择等),但往往局限于数学或单域,或缺少“如何在多轮、多代理中系统调度工具”的机制。TUMIX 的新意在于:以“多代理工具混合+多轮消息传递+自适应停⽌+简单而稳健的投票选择”形成一整套闭环流程。
七、方法学细节与实践启示
1)停⽌准则的量化思路:形式化“多一轮的期望边际收益 Δ_r”,用“多样性坍缩、投票差距、答案熵”等信号估计是否应停。这为工程落地提供了可度量的控制面板。
2)为何需要“至少两轮”?因为 LLM 作为裁判容易过度自信,1 轮即停会损失精度;强制最低轮次+裁判判断可在 49% 调用成本处逼近最优精度。
3)选择策略的朴素有效性:多数投票在早期分歧期更稳健;后期收敛时各法近似等价。可优先采用“LLM-Judge 决定轮次 + 多数投票定最终”。
4)工具并用的价值:让“代码”和“搜索”与“文本推理”互补,既提高“覆盖率”,也改善“平均质素”,从而提升“被正确答案击中”的机会。
八、局限性与潜在改进
1)答案选择瓶颈仍存:即便覆盖率在早期轮次已很高,最终准确率仍受“在噪声候选中挑对”的限制。未来可探索更强的“多证据一致性评测”与“可执行验证”来提升选择器强度。
2)成本—收益权衡:TUMIX+ 通过增加前两轮重复采样可进一步拔高峰值,但单次任务的推理/Token 成本显著上升;工程上需结合时延与预算做分层策略。
3)代理自动设计的可控性:LLM 生成代理虽能带来增益,但需要结合安全与鲁棒性约束,避免产生风格近似或不稳定的策略集合。
九、结论
TUMIX 以“结构化多样性 + 自适应细化”最大化地释放了“文本推理、代码执行与搜索”的互补价值:在多项高难基准上全面领先强基线,同时通过 LLM-Judge 的最优停⽌将成本降至约一半而几乎不丢精度;进一步用 LLM 生成新代理还能在不增成本下继续攀升表现。对实际系统而言,这提供了可通用、可扩展、可控成本的测试时增强框架,用于部署“更稳、更强、更省”的工具增强型智能体。