核心内容摘要
GME多模态向量-Qwen2-VL-2B创新应用:舞蹈动作分解图→匹配教学口令与运动生理学分析
本文由上海AI Labç‰9æ‰€é«˜æ ¡è�”å�ˆå�‘布æ�¢è®¨é«˜æ•ˆæ™ºèƒ½ä½“(Agents)çš„ä¸‰å¤§æ ¸å¿ƒä¼˜åŒ–æ–¹å�‘记忆管ç�†(工作记忆ã€�外部记忆ä¸�多智能体å��å�Œ)ã€�工具å¦ä¹ (工具选择ã€�调用ä¸�集æˆ�æ�¨ç�†)以å�Šè§„划ç–ç•¥(å�•智能体ä¸�多智能体å��作)。通过优化这些模å�—智能体å�¯åœ¨æœ€å¤§åŒ–任务æˆ�功ç�‡çš„å�Œæ—¶æœ€å°�化资æº�消耗解决token累积导致的æ�¨ç�†æˆ�本高昂和å“�应缓慢问题为2026å¹´Agentic AIå�‘展æ��ä¾›é‡�è¦�技术路线图。今天分享上海AI Lab å¤�æ—¦ä¸ç§‘院上交大ç‰9æ‰€é«˜æ ¡è�”å�ˆå�‘表了《迈å�‘高效智能体Agents记忆ã€�工具å¦ä¹ ä¸�规划综述》高效智能体ä¸�是更å°�的模å�‹è€Œæ˜¯åœ¨è®°å¿†ã€�工具使用和规划模å�—上优化以最大化任务æˆ�功ç�‡å�Œæ—¶æœ€å°�化资æº�消耗包括token使用ã€�æ�¨ç�†å»¶è¿Ÿå’Œè®¡ç®—æˆ�本的智能体系统。2026å�šAgentic AI绕ä¸�å¼€è¿™ä¸¤ç¯‡å¼€å¹´ç»¼è¿°é«˜æ•ˆæ™ºèƒ½ä½“ç ”ç©¶çš„æ¼”è¿›è½¨è¿¹
。è“�色记忆绿色工具å¦ä¹ 紫色规划橙色评测基准。智能体的效ç�‡å�±æœºè¿™ä¸ªinput-solution循ç�¯å¯¼è‡´tokençš„å¤�å�ˆç´¯ç§¯â€”—第næ¥çš„输出æˆ�为第n1æ¥çš„输入æˆ�本产生高昂的æ�¨ç�†æˆ�本和缓慢的å“�应时间。æ��å�‡æ•ˆç�‡çš„三大战略方å�‘分享两篇Claude Skills最新论文有3ä¸ªæ ¸å¿ƒç»“è®ºé«˜æ•ˆè®°å¿†é«˜æ•ˆå·¥å…·å¦ä¹ 高效规划三ã€�高效记忆Efficient Memory图2记忆生命周期——æ�„建ã€�管ç�†ã€�访问的完整æµ�程记忆模å�—æ�¶æ�„图表1高效记忆机制概览
1 工作记忆Working Memory文本å�‹å·¥ä½œè®°å¿†ç›´æ�¥åœ¨promptä¸ç»´æŠ¤ç´§å‡‘表示COMEDY使用LLMæ��å�–会è¯�特定记忆å�‹ç¼©ä¸ºå…³é”®äº‹ä»¶ã€�用户画åƒ�和关系å�˜åŒ–的紧凑表示MemAgent/MEM1顺åº�处ç�†é•¿è¾“å…¥æ¯�一æ¥é‡�写更新紧凑记忆状æ€�AgentFold主动将交互å�†å�²æŠ˜å� 为多尺度摘è¦�最新完整轮次éš�å¼�å�‹å·¥ä½œè®°å¿†ä»¥è¿�ç»ä¿¡å�·å½¢å¼�å˜å‚¨Activation Beacon将上下文分å�—通过æ¸�è¿›å�‹ç¼©å°†å±‚-wise KV激活蒸é¦�åˆ°ä¿¡æ ‡ä¸MemoryLLM维护固定大å°�的记忆tokenæ± é€šè¿‡è‡ªæ›´æ–°æœºåˆ¶å¤�用éš�å¼�知识Titans在测试时更新ç¥�ç»�记忆模å�—仅在高预测误差时写入
2 外部记忆External Memory项目å�‹è®°å¿†MemoryBank基äº�艾宾浩斯é�—忘曲线éš�æ—¶é—´è¡°å‡�记忆å�Œæ—¶å¼ºåŒ–é‡�è¦�记忆Memory-R1/Mem0ä»�对è¯�䏿��å�–并总结为候选记忆支æŒ�CRUDæ“�作A-MEM将交互转æ�¢ä¸ºå�Ÿå�笔记带上下文æ��è¿°ã€�关键è¯�å’Œæ ‡ç¾å›¾ç»“æ�„记忆GraphReader将长文本分å�—å�‹ç¼©ä¸ºå…³é”®å…ƒç´ å’Œå�Ÿå�事å®�æ�„建æ�•è�·é•¿ç¨‹ä¾�赖的图AriGraph统一è¯ä¹‰-情景记忆图è¯ä¹‰ä¸‰å…ƒç»„æ›´æ–°è¯ä¹‰å›¾æƒ…景节点链æ�¥ä¸¤è€…Zepæ�„建时åº�感知知识图谱æ��å�–/对é½�å®�体关系å˜å‚¨å¸¦æœ‰æ•ˆæœŸçš„事å®�边层次化记忆MemGPTOSé£�æ ¼è™šæ‹Ÿå†…å˜åˆ†é¡µå°†æ��示分区为系统指令ã€�å�¯å†™å·¥ä½œä¸Šä¸‹æ–‡å’ŒFIFO消æ�¯ç¼“冲区MemoryOS三层å˜å‚¨çŸæœŸå¯¹è¯�页ã€�䏿œŸä¸»é¢˜æ®µã€�长期个人画åƒ�LightMem感知-STM-LTMæµ�水线预å�‹ç¼©è¾“入在线软更新离线ç�¡çœ æ—¶æ•´å�ˆ
4 多智能体记忆类å�‹æ��述代表方法共享记忆集ä¸å�¯å¤�用信æ�¯å‡�少冗余MSã€�G-Memoryã€�RCR-Routerã€�MIRIX本地记忆æ¯�个智能体独立å˜å‚¨è½»é‡�ä½�噪Intrinsic Memory Agentsã€�AgentNetã€�DAMCSæ··å�ˆè®°å¿†ç»“å�ˆå…±äº«å’Œæœ¬åœ°éœ€å��调路由SRMTã€�Collaborative Memoryã€�LEGOMemå››ã€�高效工具å¦ä¹ Efficient Tool Learning表2高效工具å¦ä¹ æ–¹æ³•æ€»ç»“å®Œæ•´è¡¨æ ¼è§�论文第19页工具å¦ä¹ åˆ†ç±»è¡¨æ ¼
1 工具选择Tool Selection三大范å¼�范å¼�å�Ÿç�†ä»£è¡¨æ–¹æ³•适用场景外部检索器独立模å�‹åµŒå…¥æŸ¥è¯¢å’Œå·¥å…·æ��述计算相似度ProTIPã€�AnyToolã€�Toolshedå·¥å…·æ± åŠ¨æ€�å�˜åŒ–å¤šæ ‡ç¾åˆ†ç±»å›ºå®šå·¥å…·é›†è§†ä¸ºåˆ†ç±»ä»»åŠ¡TinyAgentã€�Tool2Vec工具集相对固定è¯�汇检索工具嵌入为特殊token作为下一个token预测ToolkenGPTã€�Toolkenã€�ToolGen超大规模工具库效ç�‡æ´�察è¯�汇方法Toolken效ç�‡æœ€é«˜ä½†æ³›åŒ–性å�—é™�外部检索器å�³æ�’å�³ç”¨ä½†è®¡ç®—å¼€é”€å¤§å¤šæ ‡ç¾åˆ†ç±»éœ€å¾®è°ƒä½†é€‚å�ˆå›ºå®šåœºæ™¯ã€‚
2 工具调用Tool Calling技术方å�‘æ ¸å¿ƒæ€�想代表方法å�Ÿä½�å�‚æ•°å¡«å……ç›´æ�¥åœ¨å“�应生æˆ�ä¸å¡«å……工具å�‚æ•°Toolformerã€�CoA并行工具调用识别å�¯å¹¶è¡Œæ‰§è¡Œçš„工具调用LLMCompilerã€�LLM-Tool Compilerã€�CATP-LLMæˆ�本感知调用将æˆ�本作为奖励/约æ�Ÿä¼˜åŒ–BTPã€�OTC-POã€�ToolOrchestra测试时扩展A*æ�œç´¢ç‰ç–略剪æ��错误分支ToolChain*å��è®ç»ƒä¼˜åŒ–RLè®ç»ƒæœ€å°�化冗余调用ToolRLã€�ReToolã€�PORTool关键å�‘ç�°å¹¶è¡Œè°ƒç”¨å�¯å°†é¡ºåº�延迟é™�至æ�¥è¿‘å�•æ¥ä½†éœ€å‡†ç¡®è¯†åˆ«ä»»åŠ¡ä¾�èµ–æˆ�本感知RL方法在ä¿�æŒ�准确ç�‡çš„å�Œæ—¶æ˜¾è‘—å‡�少调用次数。
3 工具集æˆ�æ�¨ç�†Tool-Integrated Reasoningæ ¸å¿ƒæŒ‘æˆ˜åœ¨å¤�æ�‚问题解决ä¸å¹³è¡¡å‡†ç¡®æ€§ã€�计算效ç�‡å’Œæ•°æ�®æ•ˆç�‡ã€‚ç–略方法机制选择性调用TableMindè¿ä»£è®¡åˆ’-行动-å��æ€�循ç�¯ä¸¤é˜¶æ®µè®ç»ƒSFTRLSMARTæ�„建数æ�®é›†æ ‡æ³¨æ¯�次调用的必è¦�性微调模å�‹å†³ç–æˆ�本感知ç–略优化RAPOæ�’å��æ„ŸçŸ¥ä¼˜åŠ¿åŠ æ�ƒå¼•导模å�‹èµ°å�‘ä¸€è‡´ç”æ¡ˆARTIST结æ�œå¯¼å�‘RLæ— æ¥éª¤çº§ç›‘ç�£å¦ä¹ 最优工具使用ç–ç•¥AutoTIR特定奖励惩罚ä¸�å¿…è¦�工具使用SWiRL并行轨迹生æˆ�时过滤冗余动作å‰�沿趋势ä»�最大化工具使用求准确转å�‘RLè®ç»ƒæœ€å°�化冗余交互的帕累托优化。五ã€�高效规划Efficient Planning高效规划总览
1 å�•智能体规划效ç�‡æ�¨ç�†æ—¶ç–略基äº�å¦ä¹ 的进化类å�‹æ–¹æ³•机制ç–略优化QLASSQ值critic指导æ�œç´¢ETODPO试错å��好å¦ä¹ RLTR/Planner-R1过程级奖励è®ç»ƒPlanning w/o Searchç¦»çº¿ç›®æ ‡æ�¡ä»¶critic记忆ä¸�技能è�·å�–VOYAGERæ�„建å�¯å¤�用技能库GAP图表示识别å�¯å¹¶è¡ŒåŠ¨ä½œ
2 多智能体å��作效ç�‡æ ¸å¿ƒæŒ‘战MASå¢�强æ�¨ç�†ä½†å¸¸äº§ç”ŸO(N²)通信æˆ�本。表3é«˜æ•ˆè§„åˆ’æ–¹æ³•æ€»ç»“å®Œæ•´è¡¨æ ¼è§�论文第25é¡µè§„åˆ’æ–¹æ³•åˆ†ç±»è¡¨æ ¼https://arxiv.org/abs/
2