核心内容摘要
《原神同人》免费动漫:提瓦特大陆的无限可能,等你来续写!
智能体要做长任务离不开记忆。
但把历史一股脑塞进提示词会带来 token 暴涨和智能体处理长上下文能力下降。
随着大模型能力的跃迁业界关注点正在从 “模型能不能做” 快速转向 “智能体能不能落地”。
过去一年可以看到大量工作在提升智能体的有效性effectiveness如何让它更聪明、更稳、更会用工具、更能完成复杂任务。
但在真实应用里另一个更 “硬” 的问题常常决定能否上线高效性efficiency。
智能体即便表现很好如果每次都要消耗大量算力、时间与调用成本也很难在生产环境大规模部署。
基于这一视角论文整理并撰写了一篇面向 “高效智能体” 的综述系统梳理当前主要方法并从三个最关键的机制出发组织全文框架记忆 — 工具学习 — 规划。
论文从设计范式出发对代表性方法进行归纳
总结聚焦那些以效率为目标或能够提升效率的核心设计与实现路径从而更清晰地呈现智能体在真实落地场景中的成本 — 性能权衡。
论文地址https://arxiv.org/abs/
2
14192GitHub 地址https://github.com/yxf203/Awesome-Efficient-Agents
智能体记忆让 “会记” 更省、更准、更可扩展智能体要做长任务离不开记忆。
但把历史一股脑塞进提示词会带来 token 暴涨和智能体处理长上下文能力下降。
因此高效记忆系统的关键在于把 “长历史” 加工成 “可用、可检索、可复用” 的信息资产。
论文按记忆生命周期梳理三步构建 — 管理 — 访问。
记忆构建通过概括、压缩与结构化把 “长对话” 转成 “可用记忆”。
一类是留在推理链路的工作记忆文本式直观但吃上下文隐式式更像缓存可减少重复编码另一类是外置为可检索系统的外部记忆先将信息压成小单元再按需召回包括条目式、图式与分层式。
此外论文也提到要警惕过度压缩带来的信息损失即需要考虑如何在降成本与保真之间取得平衡。
记忆管理防止 “存爆炸”也避免 “取太慢”。
规则式快但可能误删重要内容大模型式更聪明但更贵混合式则按层级或场景组合两者策略在效果与成本之间取得折中。
记忆访问选什么 怎么用。
访问分记忆选择与记忆整合通过检索或训练等方式挑选记忆再用压缩过滤或隐式注入减少 token 与重复编码。
另外多智能体记忆也成为新趋势。
相较于只靠通信近年更多工作开始引入 “记忆” 这一概念来支撑规模化协作论文将其概括为共享记忆 / 本地记忆 / 混合记忆三类。
工具学习让 “会用工具” 更少调用、更少等待、更少走弯路工具让智能体从 “会说” 变成 “能做”但成本也最容易在工具链路里失控。
论文按三条主线梳理提效思路工具选择 — 工具调用 — 工具融合推理。
工具选择目标是 “更快选对、少塞进 prompt”。
相关方法包括外部检索器、多标签分类以及将工具映射为特殊 token 等思路核心都是在大量工具中更快、更准地选出最需要的那几个。
工具调用核心是 “少等、少调、少走弯路”。
典型路线包括边生成边调用、并行化调用以及利用成本感知调用与测试时高效扩展来削减冗余调用进一步还可通过面向效率的后训练把 “短轨迹、少调用” 写进策略本身。
工具融合推理让模型学会 “该不该用、何时用、用几次”。
代表性方向包括选择性调用引导智能体只在必要时才发起工具调用以及成本约束策略优化在保证效果的同时对冗余交互与过长轨迹施加惩罚从而学到更短、更省的工具使用策略。
智能体规划在 “深度” 与 “宽度” 上同时省下来规划决定智能体如何在多步决策空间里行动。
效率问题要么来自单体推理 “想太深、搜太贵”要么来自多体协作 “聊太多、通信太重”。
因此论文从两条线展开单智能体规划与多智能体协作规划。
单智能体少算但不掉效果。
主要思路包括自适应预算与控制的 “选择性思考”、结构化搜索的剪枝与代价感知、任务分解的先规划后执行以及通过策略优化与记忆 / 技能获取把高效规划 “内化或复用”越用越省。
多智能体少通信但尽可能不丢信息。
方向主要有三类拓扑稀疏化减少全连接带来的的消息传递开销协议与上下文优化压缩则关注 “传什么 / 怎么传”蒸馏方法通过将多智能体协作能力蒸馏回单体来减少运行时多智能体之间协调的成本。
基准与评测Benchmark没有 “可比的尺”就谈不上 “可落地的效率”在谈记忆、工具学习与规划的提效方案之前先要把 “尺子” 定清楚高效到底怎么量论文强调效率必须建立在有效性之上。
省了资源却显著掉性能不算高效。
因此论文采用的定义是在给定预算下取得更好的效果或在相近效果下消耗更少资源。
基于这一视角论文先梳理了以有效性为主的 benchmark并进一步汇总了与效率相关的评测内容一方面整理了在 benchmark 中显式纳入效率信号成本、延迟、调用次数等的评测设置另一方面
总结了智能体方法中常用的效率指标用于刻画 “省在哪儿、省多少”。
挑战与展望论文同时也提出了目前的一些挑战与展望1统一评测框架指标口径统一模块开销边界清楚才能真正让各个智能体方法可比可复现。
2智能体的隐式推理Latent Reasoning大模型侧的隐式推理正在升温但面向智能体的研究仍相对稀缺。
由于智能体链路更长、更复杂还要处理工具调用、规划与记忆等环节如何把中间推理 “做在隐式空间里”、在不掉效果的前提下降低成本既是挑战也是机会。
3面向部署设计在多智能体场景下需要把部署成本纳入考量核心问题是投入产出比。
也就是说增加智能体带来的收益是否足以覆盖新增的开销。
4多模态效率多模态智能体发展很快但效率研究仍相对欠缺。
文本智能体的一些提效思路可以借鉴但是直接迁移却并不容易因为多模态智能体的感知输入、行为空间与任务结构更复杂、交互成本更高。
因此如何在多模态场景下系统地兼顾效果与成本仍是亟待解决的关键问题。