核心内容摘要
孙尚香:巾帼不让须眉,用“钢筋”铸就正能量人生
高效智能体不是更小的模型而是在记忆、工具使用和规划模块上优化以最大化任务成功率同时最小化资源消耗包括token使用、推理延迟和计算成本的智能体系统。
高效智能体研究的演进轨迹
。
蓝色记忆绿色工具学习紫色规划橙色评测基准。
智能体的效率危机这个input-solution循环导致token的复合累积——第n步的输出成为第n1步的输入成本产生高昂的推理成本和缓慢的响应时间。
提升效率的三大战略方向分享两篇Claude Skills最新论文有3个核心结论高效记忆高效工具学习高效规划
高效记忆Efficient Memory图2记忆生命周期——构建、管理、访问的完整流程记忆模块架构图表1高效记忆机制概览
1 工作记忆Working Memory文本型工作记忆直接在prompt中维护紧凑表示COMEDY使用LLM提取会话特定记忆压缩为关键事件、用户画像和关系变化的紧凑表示MemAgent/MEM1顺序处理长输入每一步重写更新紧凑记忆状态AgentFold主动将交互历史折叠为多尺度摘要最新完整轮次隐式型工作记忆以连续信号形式存储Activation Beacon将上下文分块通过渐进压缩将层-wise KV激活蒸馏到信标中MemoryLLM维护固定大小的记忆token池通过自更新机制复用隐式知识Titans在测试时更新神经记忆模块仅在高预测误差时写入
2 外部记忆External Memory项目型记忆MemoryBank基于艾宾浩斯遗忘曲线随时间衰减记忆同时强化重要记忆Memory-R1/Mem0从对话中提取并
总结为候选记忆支持CRUD操作A-MEM将交互转换为原子笔记带上下文描述、关键词和标签图结构记忆GraphReader将长文本分块压缩为关键元素和原子事实构建捕获长程依赖的图AriGraph统一语义-情景记忆图语义三元组更新语义图情景节点链接两者Zep构建时序感知知识图谱提取/对齐实体关系存储带有效期的事实边层次化记忆MemGPTOS风格虚拟内存分页将提示分区为系统指令、可写工作上下文和FIFO消息缓冲区MemoryOS三层存储短期对话页、中期主题段、长期个人画像LightMem感知-STM-LTM流水线预压缩输入在线软更新离线睡眠时整合
4 多智能体记忆类型描述代表方法共享记忆集中可复用信息减少冗余MS、G-Memory、RCR-Router、MIRIX本地记忆每个智能体独立存储轻量低噪Intrinsic Memory Agents、AgentNet、DAMCS混合记忆结合共享和本地需协调路由SRMT、Collaborative Memory、LEGOMem
高效工具学习Efficient Tool Learning表2高效工具学习方法
总结完整表格见论文第19页工具学习分类表格
1 工具选择Tool Selection三大范式范式原理代表方法适用场景外部检索器独立模型嵌入查询和工具描述计算相似度ProTIP、AnyTool、Toolshed工具池动态变化多标签分类固定工具集视为分类任务TinyAgent、Tool2Vec工具集相对固定词汇检索工具嵌入为特殊token作为下一个token预测ToolkenGPT、Toolken、ToolGen超大规模工具库效率洞察词汇方法Toolken效率最高但泛化性受限外部检索器即插即用但计算开销大多标签分类需微调但适合固定场景。
2 工具调用Tool Calling技术方向核心思想代表方法原位参数填充直接在响应生成中填充工具参数Toolformer、CoA并行工具调用识别可并行执行的工具调用LLMCompiler、LLM-Tool Compiler、CATP-LLM成本感知调用将成本作为奖励/约束优化BTP、OTC-PO、ToolOrchestra测试时扩展A*搜索等策略剪枝错误分支ToolChain*后训练优化RL训练最小化冗余调用ToolRL、ReTool、PORTool关键发现并行调用可将顺序延迟降至接近单步但需准确识别任务依赖成本感知RL方法在保持准确率的同时显著减少调用次数。
3 工具集成推理Tool-Integrated Reasoning核心挑战在复杂问题解决中平衡准确性、计算效率和数据效率。
策略方法机制选择性调用TableMind迭代计划-行动-反思循环两阶段训练SFTRLSMART构建数据集标注每次调用的必要性微调模型决策成本感知策略优化RAPO排名感知优势加权引导模型走向一致答案ARTIST结果导向RL无步骤级监督学习最优工具使用策略AutoTIR特定奖励惩罚不必要工具使用SWiRL并行轨迹生成时过滤冗余动作前沿趋势从最大化工具使用求准确转向RL训练最小化冗余交互的帕累托优化。
高效规划Efficient Planning高效规划总览
1 单智能体规划效率推理时策略基于学习的进化类型方法机制策略优化QLASSQ值critic指导搜索ETODPO试错偏好学习RLTR/Planner-R1过程级奖励训练Planning w/o Search离线目标条件critic记忆与技能获取VOYAGER构建可复用技能库GAP图表示识别可并行动作
2 多智能体协作效率核心挑战MAS增强推理但常产生O(N²)通信成本。
表3高效规划方法