核心内容摘要
黄色AJ与潮流情侣:穿搭灵感,点亮都市街头
随着 ChatGPT 等大语言模型的普及AI Agent 已成为下一代 AI 应用的核心。
本文深入浅出地介绍 Agent 策略模式帮助你理解如何选择和应用不同的 Agent 架构打造更智能的 AI 应用。
AI 工具中的 Agent从理论到实践如今Agent 技术已经从实验室走向实际应用各大科技公司纷纷推出了自己的 Agent 产品•Coze字节跳动推出的低代码 Agent 开发平台允许用户通过拖拽式界面快速创建和部署 AI Agent支持多渠道分发如网站、微信、Telegram内置丰富的插件生态系统•AgentBuilder专注于企业级 Agent 构建的平台支持连接企业内部数据源和工具可以创建具有特定领域知识的专业 Agent适合构建客服、销售和内部知识管理等应用•Manus专为创意工作者设计的 AI 助手使用多 Agent 架构包括编剧、导演和评论家等角色协作完成内容创作特别适合视频脚本和故事创作•Cursor基于 AI 的代码编辑器集成了强大的 Agent 功能可以理解整个代码库提供上下文感知的代码补全和重构建议•AutoGPT可以自主完成复杂任务的 Agent能够分解目标、制定计划并执行适合长期任务•Microsoft Copilot微软的 AI 助手集成在 Office 和 Windows 中能够帮助用户编写文档、分析数据•Devin号称世界上第一个 AI 软件工程师能够独立开发完整的软件项目•ContinueDev开源的 AI 编程助手使用多 Agent 协作模式包括代码生成、代码审查和测试生成等专门 Agent这些工具展示了 Agent 技术的多样性和实用性从内容创作到软件开发从数据分析到代码重构Agent 正在改变我们与技术交互的方式。
值得注意的是许多最新的工具已经开始采用多 Agent 协作架构以提供更专业、更全面的服务。
什么是 AI Agent为什么它如此重要还记得《钢铁侠》中的 Jarvis 吗能够理解托尼·斯塔克的指令帮助他完成各种任务甚至主动提供建议。
AI Agent 正是朝着这个方向发展的技术它不仅能理解你的需求还能主动规划、采取行动并持续学习。
与传统的聊天机器人不同Agent 具有自主性和目标导向的特点能够通过多次迭代来完成复杂任务。
根据最新研究一个完整的 Agent 由三部分组成•大脑Brain由大语言模型提供智能负责思考和决策•感知Perception接收和理解环境信息相当于 Agent 的眼睛和耳朵•行动Action执行具体操作调用工具和 API与外部世界交互小贴士Agent 通常会被赋予特定角色Persona如专业程序员、市场分析师等这些角色定义了 Agent 的专长和行为方式。
Agent 架构的两大流派单打独斗 vs 团队协作在 AI 研究社区目前存在一场关于哪种 Agent 架构更有效的争论。
就像人类社会中有些任务适合独立完成有些则需要团队协作一样Agent 架构也分为两大类Agent 架构策略模式 单 Agent 架构独立完成任务 多 Agent 架构团队协作模式 通用模式 ReAct思考-行动-观察循环 Reflexion自我反思与纠错 LATS树搜索规划路径 Self-Ask自问自答分解问题 垂直架构有领导层级协作 水平架构平等协作讨论 AgentVerse动态团队构建 DyLAN优胜劣汰竞争机制 MetaGPT结构化输出协作 Plan-Execute规划与执行分离 ReWOO变量引用减少通信 LLMCompiler并行执行提速这两种架构就像独行侠和团队作战的区别各有优势适用于不同场景。
单 Agent 架构一个人的战斗单 Agent 架构就像一个全能选手独自完成从思考到执行的全过程。
它适合那些任务明确、流程清晰的场景。
经典案例1️⃣ ReAct思考与行动的循环ReActReasoning Action采用思考-行动-观察的循环方式工作让 Agent 能够边思考边行动分析状态制定计划 执行操作调用工具 获取结果环境反馈 思考 Reasoning 行动 Acting 观察 Observing核心优势• 减少幻觉幻觉率仅为 6%远低于传统方法• 自我纠错能力强• 决策过程透明可解释• 适合需要多工具交互的复杂任务论文例子ReAct 已被广泛应用于 LangChain、AutoGPT、CLine 等主流 Agent 框架或工具中。
2️⃣ Reflexion会自我反思的 AgentReflexion[1]引入了自我反思机制就像人类在犯错后会反思一样。
它能够• 分析自己的错误• 通过语言反馈进行自我纠正• 维护长期记忆以改进未来决策3️⃣ LATS像下棋一样规划未来LATS[2]Language Agent Tree Search使用树搜索算法像国际象棋大师一样思考多步ahead• 探索多条可能的行动路径• 评估每条路径的可能结果• 选择最优路径执行4️⃣ Self-Ask自问自答的问题分解Self-Ask[3]是一种通过自问自答方式分解复杂问题的策略让 Agent 像侦探一样逐步推理主问题 自问: 子问题1 自答: 子问题1的答案 自问: 子问题2 自答: 子问题2的答案 综合答案论文例子工作原理Self-Ask 通过问题分解→自问自答→信息整合的流程将复杂问题拆解为可管理的子问题逐一解决后综合答案。
核心优势•系统性分解使复杂问题变得可解减少关键信息遗漏•推理透明化整个推理过程清晰可见便于调试和理解•提高准确性在多跳推理任务中比标准提示提高了
% 的准确率适用于多步骤推理问题、需要组合多个信息片段的查询以及需要从多个来源收集整合信息的任务。
多 Agent 架构团队的力量多 Agent 架构就像一个专业团队每个成员负责自己擅长的领域。
根据组织结构可以分为两种类型 垂直架构有领导的团队垂直架构中一个 Agent 担任领导角色其他 Agent 向其汇报。
这种结构有明确的分工和责任链。
AgentVerse动态团队构建AgentVerse[4]是一个多 Agent 协作框架它根据任务需求动态组建专业团队•角色分配根据任务自动选择合适的 Agent 角色•协作机制设计了专门的通信协议确保 Agent 之间有效沟通•动态调整可以根据任务进展调整团队结构AgentVerse架构使用agentVerse生成计算器的例子第一轮团队成员包括程序员、ui/ux程序员、软件测试人员、架构师第二轮团队通过决策生成了反馈、代码优化最终确保所有功能完善相对于单个Agent多 Agent 架构能更高效地处理复杂任务。
DyLAN优胜劣汰的竞争机制DyLAN[5]Dynamic LLM Agent Network引入了一种创新的优胜劣汰机制• 多个 Agent 同时解决同一问题• 系统评估每个 Agent 的表现• 保留表现最好的 Agent淘汰表现差的• 通过这种进化方式不断提高整体性能使用DyLAN模式生成代码如上图使用代码审核单元测试语法检查等工具验证生成效果通过多轮迭代生成最终代码结果。
可以看出这种模式相当消耗Tokens 水平架构平等协作的团队水平架构中所有 Agent 地位平等通过讨论和协商达成共识。
这种结构更像是一个专家研讨会。
讨论 讨论 讨论 讨论 讨论 讨论 Agent 1 Agent 2 Agent 3 Agent 4MetaGPT结构化输出的协作MetaGPT[6]是一个基于水平架构的多 Agent 框架它的特点是•角色专业化每个 Agent 扮演特定专业角色如产品经理、架构师、开发者•结构化输出使用标准化格式如 JSON、Markdown进行沟通•异步协作Agent 之间可以异步工作减少等待时间一个软件开发公司的例子 多 Agent 架构的明星产品多 Agent 架构已经在实际产品中得到应用以下是几个典型案例•Manus使用多个创意角色编剧、导演、评论家协作创作内容•ContinueDev多个专业 Agent 协作完成软件开发任务•AutoGen微软开源的多 Agent 框架支持自定义 Agent 角色和协作模式通用模式适用于各种架构的策略除了特定的架构外还有一些通用模式可以应用于不同类型的 Agent 系统 Plan-Execute 模式规划与执行分离Plan-Execute 是一种将规划和执行分离的模式类似于先想后做工作流程
规划阶段Agent 分析任务制定详细步骤计划
执行阶段按照计划逐步执行可能调用工具或API
反馈循环执行结果可能触发重新规划核心优势•减少错误先规划再执行避免盲目行动•提高效率计划可以优化执行路径减少不必要的操作•可解释性计划提供了决策过程的清晰记录 ReWOO变量引用的魔力ReWOO[7]Reasoning Without Observation是一种通过变量引用减少通信成本的模式工作流程
任务分解将复杂任务分解为多个子任务
变量存储每个子任务的结果存储为变量
变量引用后续步骤通过引用变量获取之前的结果
结果整合最终整合所有变量生成完整结果核心优势•减少重复计算避免重复生成已有信息•提高一致性确保整个过程中使用相同的中间结果•降低通信成本通过变量引用而非完整内容传递减少token消耗⚡ LLMCompiler并行执行的加速器LLMCompiler[8]是一种通过并行执行提高效率的模式适合有多个独立子任务的场景工作原理LLMCompiler 分析任务依赖关系构建执行图并同时执行互不依赖的子任务最后整合结果。
实验表明这种方法可将任务完成时间缩短
倍。
核心优势•并行处理同时执行多个独立子任务显著节省时间•智能依赖管理自动识别任务间依赖确保执行顺序正确•资源优化充分利用计算资源提高系统效率适用于多源数据收集、批量处理和复杂工作流等场景能有效提升处理复杂任务的效率。
Agent 架构与模式对照表以下表格可以帮助你根据任务特点选择合适的 Agent 架构和模式任务特点推荐架构/模式优势单一明确目标单 Agent ReAct简单直接反应迅速需要自我纠错单 Agent Reflexion具有自我改进能力多步骤规划单 Agent LATS能够探索多条可能路径复杂推理问题单 Agent Self-Ask系统性分解复杂问题跨领域专业任务多 Agent 垂直架构专业分工有效协调创意头脑风暴多 Agent 水平架构多视角思想碰撞需要提高效率LLMCompiler并行执行节省时间复杂工作流Plan-Execute ReWOO清晰规划高效执行
总结与未来展望AI Agent 技术正在快速发展从单一 Agent 到多 Agent 协作从简单任务到复杂工作流各种架构和模式不断涌现。
选择合适的 Agent 架构是构建高效 AI 系统的关键。
未来我们可以期待•更智能的协作机制Agent 之间的协作将更加自然和高效•自适应架构系统能够根据任务自动选择最佳架构•人机协作增强Agent 将更好地与人类协作形成人机混合团队•领域专精化出现更多针对特定领域优化的 Agent 架构无论是单 Agent 的独行侠还是多 Agent 的团队作战选择合适的架构和策略才能发挥 AI 的最大潜力构建真正智能、高效的系统。
小贴士如果你正在开发 Agent 系统建议从单 Agent 架构开始掌握基础后再尝试多 Agent 架构。
同时关注社区最新研究和开源项目可以帮助你避免重复造轮子。
引用链接[1]Reflexion:https://arxiv.org/pdf/
2
11366[2]LATS:https://arxiv.org/pdf/
2
04406[3]Self-Ask:https://arxiv.org/pdf/
2
03350[4]AgentVerse:https://openreview.net/pdf?idEHg5GDnyq1[5]DyLAN:https://arxiv.org/pdf/
2
02170[6]MetaGPT:https://github.com/geekan/MetaGPT[7]ReWOO:https://arxiv.org/pdf/
2
18323[8]LLMCompiler:https://arxiv.org/pdf/
2