
机器之心报说念
剪辑:Panda
智能体(Agent),即基于话语模子且具备推理、筹算和行径才能的系统,正在成为实际全国 AI 应用的主导范式。
尽管其已被平凡接受,但决定其性能的原则仍未被充分探索,导致从业者只可依赖启发式训戒,而非有道理依托的想象遴荐。
当今,的一篇新论文填补了这一空缺!
他们通过开阔实验找到了智能体的 Scaling Law,只不外他们将其称为quantitative scaling principles,即定量膨胀原则。

论文标题:Towards a Science of Scaling Agent Systems论文地址:https://arxiv.org/abs/2512.08296
具体来说,他们将这种膨胀界说为智能体数目、结合结构、模子才能和任务属性之间的相互作用。
他们在四个不同的基准测试中对此进行了评估:Finance-Agent(金融推理)、BrowseComp-Plus(聚集导航)、PlanCraft(游戏筹算)和 Workbench(职责流践诺)。

操纵五种典型的智能体架构(单智能体系统以及四种多智能体系统:独处型、中心化、去中心化、混杂型),并在三个 LLM 家眷(OpenAI, Google, Anthropic)中进行实例化,谷歌这个团队对 180 种成就进行了受控评估,递次化了器具、教导结构和 token 预算,以将架构效应从实施混杂身分中停止出来。

他们使用训戒性的结合想法(包括效果、支出、子虚放大和冗余)推导出了一个瞻望模子,该模子罢了了交叉考证 R²=0.513,通过对任务属性建模而非过度拟合特定数据集,罢了了对未见任务领域的瞻望。
是的,智能体的 Scaling Law 找到了!况兼准确度还终点高,谷歌暗示:「咱们的框架在瞻望保留任务的最好架构方面罢了了 87% 的准确率。」这么一来,智能体的部署决议将第一次赢得强有劲的原则赈济。

为了找到这套定量原则,谷歌团队莫得只是停留在表面推导,而是进行了一场号称暴力穷举的实证有计划。
他们动用了三大模子家眷(Google Gemini、OpenAI GPT、Anthropic Claude),在金融、网购、游戏筹算等不同场景下进行了 180 组受控实验。
实验驱散不仅令东说念主不测,致使颠覆了好多缔造者的直观。简短来说,他们发现了一些规矩。
任务决定成败:有的场景是神助攻,有的是猪队友
往常东说念主们常说「三个臭皮匠,顶个诸葛亮」,但这篇论晓示诉咱们:这透顶取决于你们在干什么任务。

红榜(得当组团): 在金融分析(Finance-Agent)这类任务中,多智能体结合是大杀器。中心化架构(有一个「调换官」分拨任务)能让性能暴涨 80.9%。为什么?因为这类任务不错拆分 —— 你查财报,我算汇率,他作念转头,寰球并行职责,效果极高。
黑榜(切忌组团): 在游戏筹算(PlanCraft)这类任务中,通盘多智能体架构皆翻车了,性能惨跌 39% 到 70%。原因在于这类任务为德不终紊(必须先砍树,才能作念木板),强行把经过拆给不同的东说念主,光是计划本钱就把推理才能花费殆尽了。
三大隐形杀手:什么在阻止智能体变强?
通过对数据的深度挖掘,谷歌团队量化了阻止智能体膨胀的三大中枢身分:
第一,器具越多,结合越难(器具-结合衡量)
要是任务需要用到开阔器具(比如 16 个以上的 API),再引入多智能体结合等于一场糟糕。实验数据走漏,器具密集的任务会因宏大的计划支出而不仅没变快,反而变慢、变笨。
第二,才能有天花板(才能充足效应)
这是最反直观的极少:要是单个智能体如故够聪惠了,就别再给它找帮衬了。 数据标明,当单智能体的基线准确率异常 45% 时,再增多智能体进行结合,收益频频是负的。所谓「帮倒忙」,在 AI 全国里是真正存在的。
第三,莫得调换官,子虚会指数级放大
要是你让一群智能体各利己战(独处型架构),子虚会被放大 17.2 倍 —— 因为没东说念主查验,一个东说念主的错会传给通盘东说念主。但要是引入一个「调换官」进行中心化经管,子虚放大率能被戒指在 4.4 倍。这证实了在多智能体系统中,架构想象比单纯堆东说念主数更进击。
模子特性测试:谁是最好调换官?
除了任务和架构,论文还发现了一个道理道理的表象:不同厂商的模子有不同的结合特性。在遴荐团队成员时,你不成只看才略(IQ),还要看它们合别离群。
Google Gemini:擅长「层级经管」的践诺官。Gemini 模子在中心化架构下阐述出了惊东说念主的适应性。在金融任务中,Gemini 的中心化结合带来了 +164.3% 的恐怖普及。数据标明,它最听调换,践诺力最强,且在不同架构下的性价比最为均衡。
OpenAI GPT:擅长「复杂计划」的交际花。GPT 系列在混杂型架构(Hybrid)中阐述最好 。天然混杂架构的计划本钱很高,但 GPT 似乎领有私有的「通讯协同效应」(Communication Synergy),能驾御复杂的交互聚集,不仅能听调换,还能科罚同级之间的横向计划 。
Anthropic Claude:正经但敏锐的保守派。Claude 对结合支出相配敏锐,一朝计划太复杂,本钱就会飙升(每普及 1% 性能的本钱是 Google 的 2 倍)。因此,它最得当简短平直的中心化架构,阐述最稳(方差最小)。更道理道理的是,它是惟逐个个在「弱调换官带强兵」(异构混杂)口头下还能普及性能的模子,展现出了私有的容错性

驱散:这等于咱们要找的「瞻望公式」
最终,基于上述发现,谷歌推导出了一个瞻望模子。这个模子不依赖玄学,而是基于效果、支出、子虚放大率等硬想法。


它的威力如何?在瞻望透顶没见过的任务成就时,这套表面能以 87% 的准确率告诉你:关于现时的任务和模子,到底该用单打独斗,照旧团队结合,亦或是某种特定的组队神情。
这标记着智能体系统想象阐述告别了「真金不怕火金术」期间,参预了可狡计、可瞻望的「化学」期间。
更多确定请打听原论文。