首页速度优化FLUX.1-dev旗舰版5分钟上手：24G显存优化+影院级画质生成

网站优化

AI编程提效：Qwen3-0.6B-FP8辅助C语言基础代码编写与调试

速度之王：深度解析 C++ XML 解析库 pugixml 的高性能架构设计

2026-06-09 15:07:10

阅读时长:4分钟

562次阅读

核心内容摘要

CC-Link IE转 ProfiNet 协议模块，低成本完成 3C 产线通讯改造

来学学大模型最新「合金特工」骚操作能力比肩多智能体AI 黑客成功率飙升大模型入门到精通收藏这篇就足够了你了解过多智能体Multi-Agent吗就在大家还在讨论如何让多个 AI Agent 分工协作、各司其职的时候一种全新的、更高效的玩法——模型合金Model Alloy——横空出世在不增加成本的前提下带来了显著的性能提升。

来自美国渗透测试公司XBOW的 AI 负责人 Albert Ziegler 近日发表了一篇博文揭示了他们团队的一个「简单而新颖」的想法。

这个想法让他们的 AI 黑客漏洞检测 Agent在基准测试中的成功率从 25% 一路飙升至 40%最终达到了 55%最关键的是这种方法的原理并不局限于网络安全领域而是适用于一大类 Agentic AI 的应用场景。

它不依赖于复杂的 Agent 间通信或任务拆解而是用一种极其巧妙的方式在一个对话流中「融合」多个不同大模型的智慧将它们「合体」成一个更强大的超级个体。

这和当前主流的多智能体框架有什么区别让我们一起学习一下 XBOW 的骚操作。

缘起AI 自主黑客的困境要理解「模型合金」的精妙之处首先要了解它诞生的背景。

XBOW 主营业务的是自主渗透测试。

简单来说你把你的网站交给它它就会像一个人类黑客一样自动尝试攻击它寻找安全漏洞然后生成报告让你修复。

整个过程完全自主无需人类干预。

在这个复杂的任务中反复出现的核心子任务是给定一个具体的攻击面比如网站的某个登录接口和要寻找的漏洞类型比如 SQL 注入AI Agent 需要在有限的步骤内成功复现这个漏洞。

这非常像一个网络安全领域的CTF挑战Agent 需要在一系列尝试中找到那个隐藏的「Flag」证明漏洞的存在。

XBOW 的 AI 负责人 Albert Ziegler 指出这类任务的特殊之处在于它不是一个「稳步前进」就能解决的问题。

它更像是在一个巨大的搜索空间里勘探金矿Agent 需要在很多地方挖掘可能会追随一些错误的线索然后不断修正方向最终在某个意想不到的地方发现金矿。

在整个挑战过程中AI Agent 需要在一堆无效的尝试中迸发出几个关键的、绝妙的想法并将它们组合起来才能成功。

为了评估和迭代他们的 AgentXBOW 建立了一套 CTF 风格的基准测试集。

最初Agent 的迭代次数被限制在80次以内因为超过这个次数Agent 积累的错误理解和假设往往会让它陷入死胡同重新开始一个「干净」的 Agent 反而更有效率。

一开始团队尝试了市面上所有最顶尖的 LLM。

从 OpenAI 的GPT-4到后来表现更佳的 AnthropicClaude

5 Sonnet。

模型不断升级从 Sonnet

7 到谷歌的Gemini

5 Pro最后到最新的Sonnet

0模型的性能一代比一代强。

但一个有趣的现象出现了没有一个模型能在所有挑战中称王。

有些挑战Sonnet 解决起来得心应手而另一些则是 Gemini 的强项。

Albert 意识到如果一个挑战需要 5 个绝妙的点子才能解决那么有些挑战所需的点子组合恰好是 Sonnet 擅长的而另一些则更符合 Gemini 的「思维模式」。

但如果恰好有一个挑战需要 3 个 Sonnet 式的点子和 2 个 Gemini 式的思路呢传统的单模型 Agent 就会束手无策。

而主流的多智能体框架又显得过于「笨重」。

于是「模型合金」这个想法应运而生。

核心揭秘什么是「模型合金」在讨论「模型合金」之前我们先回顾一下当前主流的多智能体思路。

通常多智能体指的是让多个 Agent 协同工作每个 Agent 由不同的、更擅长特定领域的模型驱动。

比如让 o3 负责规划扮演架构师让 Claude 负责编程扮演程序员让 Gemini 负责测试让 Deepseek 负责营销。

它们各司其职像一个人类团队。

而模型合金Model Alloy的思路则完全不同。

它的核心思想是在一个单一的 Agent 对话流中交替调用不同的 LLM并巧妙地控制对话历史让每个模型都以为之前的对话是自己生成的。

这个「控制对话历史」的技巧就是整个方法论的精髓。

我们来看一个具体的例子。

假设 Agent 的任务是「Find the bug!」。

第 1 轮调用 Sonnet

0System: Find the bug!Sonnet 可能会回答「我们先用curl命令探测一下这个应用。

」Assistant: Lets start by curling the app.XBOW 的系统执行这个命令得到返回结果比如401 Unauthorized未授权。

第 2 轮调用 Gemini

5 Pro现在关键操作来了。

Agent 不会再用 Sonnet而是切换到 Gemini。

它会把上一轮 Sonnet 的回答「冒充」成是 Gemini 自己说的然后把新信息作为用户输入。

给 Gemini 的 prompt 会变成这样System: Find the bug! Assistant: Lets start by curling the app. User: You got a 401 Unauthorized response.注意到吗Gemini 看到这个对话历史会认为「用 curl 探测」是它自己在上一轮提出的想法。

现在基于401的结果Gemini 可能会提出一个新的想法「未授权那我们试试用管理员凭证登录。

」Assistant: Lets try to log in with the admin credentials.第 3 轮再次调用 Sonnet

0系统执行登录操作并成功返回200 OK。

接下来Agent 再次切换回 Sonnet并把刚才 Gemini 的回答也加入到对话历史中同样交付给 Sonnet。

给 Sonnet 的 prompt 会是这样System: Find the bug! Assistant: Lets start by curling the app. User: You got a 401 Unauthorized response. Assistant: Lets try to log in with the admin credentials. User: You got a 200 OK response.如此循环往复。

Sonnet 和 Gemini 在一个统一的对话线程中交替出现但它们彼此毫不知情都以为自己是这个对话中唯一的「大脑」。

在 XBOW 的实际实现中他们甚至使用了随机选择模型的策略以增加多样性。

这种方法的两大核心优势是总的模型调用次数保持不变没有增加额外的计算开销。

让每个模型都有机会贡献其独特的优势和灵感实现智慧的互补。

就像炼制合金一样将不同特性的金属模型熔合在一起最终得到的合金智能体Alloyed Agent比任何单一纯金属单一模型都更加坚固和强大。

效果显著11 2实验结果证明「模型合金」的效果远超预期。

XBOW 将 Sonnet

7, GPT-

1, Gemini

5 Pro, 和 Sonnet

0 两两组合进行测试。

结果发现无论怎么组合合金 Agent 的性能都优于其任何一个单一组分。

通过大量的实验团队

总结出几个关键规律•模型差异越大合金效果越好。

Sonnet

0 和 Gemini

5 Pro 在解决各个挑战的成功率上相关性最低斯皮尔曼相关系数仅为

46而它俩组成的「合金」性能提升也最大。

这说明它们的「思维模式」差异大互补性最强。

•强强联合优于强弱组合。

基础模型越强组成的合金也倾向于越强。

如果一个模型本身性能拉胯太多甚至可能拖累整个合金的表现。

•不均衡合金应偏向更强的模型。

如果一个模型明显强于另一个那么在随机调用时给更强的模型更高的权重效果会更好。

为了更直观地说明合金策略的威力XBOW 做了一个对比实验方案A运行两个独立的 Agent只要任意一个解题就算成功。

方案B运行一个Sonnet

0Agent 和一个Gemini

5 ProAgent。

方案C运行两个的「Sonnet

0 Gemini

5 Pro」合金 Agent。

结果如下表所示合金 Agent 的组合完胜其他所有组合成功率达到了惊人的

6

8%。

这甚至远高于简单地将两个最强 Agent 的成功率相加。

第一个 Agent第二个 Agent综合成功率Gemini

5Gemini

2.

5

4%Sonnet

0Sonnet

4.

0

5%Sonnet

0Gemini

2.

5

2%合金 (S4G

2.

合金 (S4G

2.

5)

6

8%这有效地证明了模型合金并非简单的能力叠加而是产生了真正的思维化学反应。

⚔️ 「合金」 vs. 「多智能体」一场范式之争读到这里你可能会问这种方法和我们熟悉的其他多模型方法有什么不同Albert 在博文中也对比了「模型合金」与其他三种主流范式的区别。

vs. 任务专家分工(Specialized Agents)这是最经典的多智能体模式以AutoGPT生态为代表。

其核心是为不同任务分配不同模型。

比如用一个高阶模型如 GPT-4做总规划用更专业的模型执行具体计划高阶模型定期检查进度并调整。

•优点逻辑清晰符合人类团队协作直觉。

•缺点「模型合金」的作者认为这种方法会给他们的 Agent 循环增加过多的开销。

对于 XBOW 这种需要快速迭代、不断试错的搜索任务来说效率太低。

vs. 模型投票(Mixture-of-Agents)这种方法是在每一步都同时问询多个模型然后通过投票或引入一个「裁判」模型来选出最佳答案。

知名的Mixture-of-Agents (MoA)就是一个很好的例子。

•优点集思广益提升单步决策的可靠性。

•缺点成本和延迟会成倍增加。

XBOW 认为用这些额外的成本他们宁愿多启动几个独立的 Agent 去碰运气。

vs. 多智能体辩论(Multi-Agent Debate)这种模式让模型之间直接对话互相提出论点、反驳和完善对方的答案。

•优点对于极其关键、不容有失的单步决策这种方法能做到极致的审慎和深入。

•缺点太「重」了。

XBOW 的任务本质上是一个搜索过程它需要快速地「翻开一块块石头」而不是成立一个委员会来决策下一块石头应该怎么翻。

总结来说「模型合金」巧妙地避开了上述所有方法的缺点。

它既没有增加模型调用的总数也没有引入复杂的任务管理开销而是通过一种轻量级、优雅的方式在一个 Agent 内部实现了多个模型智慧的动态融合。

「炼金」指南你的项目适合用「模型合金」吗看到这里你一定也跃跃欲试了。

不过模型合金虽好也并非万能。

Albert 贴心地给出了应用指南。

什么时候应该考虑使用模型合金• 你的任务是通过一个迭代循环调用 LLM 来解决问题且调用次数较多比如几十次以上。

• 任务的解决需要组合多个不同的想法或洞察。

• 这些想法可以在流程中的不同时间点出现没有严格的先后顺序。

• 你能接触到足够多样化最好来自不同厂商的大模型。

• 这些模型各有千秋在不同方面有各自的长处和短处。

什么情况下「模型合金」可能不是最优选•你的 prompt 远长于模型的生成内容。

这种情况下你非常依赖prompt caching提示词缓存来降低成本和延迟。

而模型合金需要为每个模型维护一个缓存这会使缓存的成本和复杂性翻倍。

•你的任务是「稳步前进」型而不是需要「灵光一闪」。

对于前者合金模型的表现可能只会是几个模型表现的平均值。

•只有一个模型在你的任务上表现突出。

这样你就没有合适的模型来和你的「王牌模型」炼成合金了。

•你手头的所有模型「思维方式」太相似。

它们对任务难点的判断高度一致无法形成互补。

XBOW 团队就发现将同属 Anthropic 公司的模型合金化性能提升微乎其微。

最后的这一点尤其关键记住模型合金的魔力源于「差异性」。

只有当不同厂商、采用不同架构和训练数据的模型融合时才能真正碰撞出智慧的火花。

✨ 写在最后「模型合金」为我们打开了一扇新的大门。

它揭示了在构建强大 AI Agent 时我们不必总是在复杂的「群体智能」和单一的「个体智能」之间做选择。

通过一种简单而巧妙的「融合」我们可以创造出一种全新的智能形态——它拥有单一 Agent 的简洁高效又兼具了多个大脑的多样性智慧。

这无疑为 AI Agent 领域的发展提供了极具价值的参考。

如果你也对这个想法感兴趣不妨现在就动手试试或许下一个性能飙升的就是你的 AI Agent想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容

学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI

100本大模型方向电子书

26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC

实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

600套技术大会 PPT听行业大咖讲实战PPT 整理自

年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌

107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自

年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析

102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑

97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”

路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。

L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、

关键技术以及大模型应用场景。

L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。

L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。

L5阶段专题集丨特训篇【录播课】