《熬过那些心照不宣的夜晚:当男生女生开始“一起愁”,才是最高级的共鸣》

核心内容摘要

雷电将军的释怀:战火硝烟中的静思与新生
探索男性同性情谊的别样风景:发现精彩免费内容

当猫娘的“崩溃”瞬间,化作一场意想不到的治愈风暴

构建智能体系统扩展科学规律的研究通过对180种智能体配置的控制性评估我们首次得出了AI智能体系统的定量扩展原理。

研究显示多智能体协调在可并行任务上能显著提升性能但在序列任务上却会降低性能。

我们还推出了一个预测模型能为87%的未见任务识别出最优架构。

智能体系统的复杂性挑战AI智能体——具备推理、规划和行动能力的系统——正成为现实世界AI应用的常见范式。

从编程助手到个人健康教练行业正从单次问答转向持续的多步骤交互。

虽然研究人员长期使用既定指标来优化传统机器学习模型的准确性但智能体引入了新的复杂性层级。

与孤立预测不同智能体必须导航持续的多步骤交互其中单个错误可能在整个工作流程中产生级联影响。

这种转变迫使我们超越标准准确性思考我们究竟如何设计这些系统以实现最优性能从业者经常依赖启发式方法比如更多智能体更好的假设相信增加专业化智能体会持续改善结果。

例如更多智能体就是全部所需报告指出大语言模型性能会随智能体数量扩展而协作扩展研究发现多智能体协作...通过集体推理经常超越单个个体。

在我们的新论文构建智能体系统扩展科学中我们质疑了这一假设。

通过对180种智能体配置的大规模控制评估我们得出了智能体系统的首个定量扩展原理揭示更多智能体方法经常遇到天花板如果与任务的特定属性不匹配甚至会降低性能。

定义智能体任务的特性为了理解智能体如何扩展我们首先定义了什么使任务具有智能体特性。

传统静态基准衡量模型的知识但它们无法捕获部署的复杂性。

我们认为智能体任务需要三个特定属性我们评估了五种规范架构一个单智能体系统SAS和四个多智能体变体独立、集中、分散和混合跨越四个不同基准包括Finance-Agent金融推理、BrowseComp-Plus网页导航、PlanCraft规划和Workbench工具使用。

智能体架构定义如下本研究评估的五种规范智能体架构

总结包括它们的计算复杂性、通信开销和协调机制。

k 每个智能体的最大迭代次数n 智能体数量r 协调器轮数d 辩论轮数p 对等通信轮数m 每轮平均对等请求数。

通信开销计算智能体间消息交换。

独立提供最大并行化和最小协调。

分散使用顺序辩论轮数。

混合结合协调器控制和定向对等通信。

模型能力对智能体性能的影响为了量化模型能力对智能体性能的影响我们在三个领先模型系列中评估了我们的架构OpenAI GPT、Google Gemini和Anthropic Claude。

结果揭示了模型能力与协调策略之间的复杂关系。

如下图所示虽然性能通常随着更强大的模型呈上升趋势但多智能体系统并非通用解决方案——根据具体配置它们可能显著提升或意外降低性能。

跨三个主要模型系列OpenAI GPT、Google Gemini、Anthropic Claude的性能比较显示不同智能体架构如何随模型智能扩展其中多智能体系统可能根据配置提升或降低性能。

下面的结果比较了五种架构在不同领域的性能如网页浏览和金融分析。

箱形图表示每种方法的准确性分布而百分比表示多智能体团队相比单智能体基线的相对改进或下降。

这些数据突出显示虽然增加智能体可以在可并行任务上带来巨大收益但在更多序列工作流程中经常导致收益递减——甚至性能下降。

特定任务性能显示多智能体协调在可并行任务如Finance-Agent上产生实质性收益81%而在序列任务如PlanCraft上降低性能-70%。

在可并行任务如金融推理中例如不同智能体可以同时分析收入趋势、成本结构和市场比较集中协调相比单智能体提升了

8

9%的性能。

将复杂问题分解为子任务的能力允许智能体更有效地工作。

相反在需要严格序列推理的任务中如PlanCraft中的规划我们测试的每个多智能体变体都降低了

%的性能。

在这些场景中通信的开销分割了推理过程为实际任务留下了不足的认知预算。

我们识别了工具-协调权衡。

随着任务需要更多工具例如具有16工具访问权限的编程智能体协调多个智能体的税费不成比例地增加。

架构与可靠性的关系对于现实世界部署来说最重要的是我们发现了架构与可靠性之间的关系。

我们衡量了错误放大即一个智能体的错误传播到最终结果的速率。

跨架构的综合指标显示集中系统在成功率和错误控制之间实现了最佳平衡而独立多智能体系统的错误放大高达

1

2倍。

我们发现独立多智能体系统智能体并行工作而不交流将错误放大了

1

2倍。

没有检查彼此工作的机制错误无控制地级联。

集中系统带有协调器将这种放大控制在仅

4倍。

协调器有效地充当验证瓶颈在错误传播前捕获它们。

预测最优架构的模型超越回顾我们开发了一个预测模型R^2

513使用可测量的任务属性如工具数量和可分解性来预测哪种架构将表现最佳。

该模型正确识别了87%未见任务配置的最优协调策略。

这表明我们正迈向智能体扩展的新科学。

开发者现在可以查看任务的属性特别是其序列依赖性和工具密度来做出有原则的工程决策而不是猜测是否使用智能体群或单个强大模型。

未来展望随着Gemini等基础模型的持续进步我们的研究表明更智能的模型不会取代多智能体系统的需求而是加速它但仅当架构正确时。

通过从启发式转向定量原理我们可以构建下一代AI智能体它们不仅数量更多而且更智能、更安全、更高效。

我们要感谢来自Google Research、Google DeepMind和学术界的共同作者和合作者对这项工作的贡献。

QAQ1什么是智能体系统的扩展规律A智能体系统的扩展规律是指通过研究发现的定量原理揭示了多智能体协调在可并行任务上能显著提升性能

8

9%但在序列任务上会降低

%的性能。

这打破了更多智能体更好的传统假设。

Q2如何选择最适合的智能体架构A可以通过预测模型来选择该模型使用任务的可测量属性如工具数量和可分解性来预测最优架构。

模型能为87%的未见任务正确识别最优协调策略准确率达到R^

2

513。

Q3多智能体系统的错误放大问题如何解决A研究发现集中系统能最好地平衡成功率和错误控制。

独立多智能体系统错误放大高达

1

2倍而集中系统仅为

4倍。

协调器充当验证瓶颈能在错误传播前捕获它们。

成全免费观看高清全集-成全免费观看高清全集应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123