首页速度优化MPC算法在无人驾驶中的5大应用误区：从轨迹跟踪到局部路径规划的坑我都踩过了

网站优化

netsh端口转发实战：如何在Windows上快速搭建内网穿透服务

《零信任架构运维监控信任体系构建实操手册》

2026-06-12 04:39:21

阅读时长:9分钟

562次阅读

核心内容摘要

看完就想试！PyTorch镜像打造的AI绘画增强案例展示

文章详细介绍了AI Agent记忆系统架构包括短期记忆的上下文工程策略和长期记忆的技术实现。

通过压缩、卸载等策略解决短期记忆的上下文限制利用向量数据库等技术实现跨会话信息存储与检索。

文章对比了主流框架的记忆实现探讨了行业趋势为构建智能AI Agent提供技术指导。

Memory 基础概念

1 记忆的定义与分类对于 AI Agent 而言记忆至关重要因为它使它们能够记住之前的互动、从反馈中学习并适应用户的偏好。

对“记忆”的定义有两个层面会话级记忆用户和智能体 Agent 在一个会话中的多轮交互user-query response跨会话记忆从用户和智能体 Agent 的多个会话中抽取的通用信息可以跨会话辅助 Agent 推理

2 各 Agent 框架的定义差异各个 Agent 框架对记忆的概念命名各有不同但共同的是都遵循上一节中介绍的两个不同层面的划分会话级和跨会话级。

框架说明Google ADKSession 表示单次持续交互Memory 是长期知识库可包含来自多次对话的信息LangChainShort-term memory 用于单线程或对话中记住之前的交互Long-term memory 不属于基础核心组件而是高阶的“个人知识库”外挂AgentScope虽然官方文档强调需求驱动但 API 层面仍然是两个组件memory 和 long_term_memory功能层面有明确区分习惯上可以将会话级别的历史消息称为短期记忆把可以跨会话共享的信息称为长期记忆但本质上两者并不是通过简单的时间维度进行的划分从实践层面上以是否跨 Session 会话来进行区分。

长期记忆的信息从短期记忆中抽取提炼而来根据短期记忆中的信息实时地更新迭代而其信息又会参与到短期记忆中辅助模型进行个性化推理。

Agent 框架集成记忆系统的架构各 Agent 框架在集成记忆系统时虽然实现细节不同但都遵循相似的架构模式。

理解这些通用模式有助于更好地设计和实现记忆系统。

1 Agent 框架集成记忆的通用模式各 Agent 框架集成记忆系统通常遵循以下通用模式

Step1推理前加载 - 根据当前 user-query 从长期记忆中加载相关信息

Step2上下文注入 - 从长期记忆中检索的信息加入当前短期记忆中辅助模型推理

Step3记忆更新 - 短期记忆在推理完成后加入到长期记忆中

Step4信息处理 - 长期记忆模块中结合 LLM向量化模型进行信息提取和检索

2 短期记忆Session 会话短期记忆存储会话中产生的各类消息包括用户输入、模型回复、工具调用及其结果等。

这些消息直接参与模型推理实时更新并受模型的 maxToken 限制。

当消息累积导致上下文窗口超出限制时需要通过上下文工程策略压缩、卸载、摘要等进行处理这也是上下文工程主要处理的部分。

核心特点存储会话中的所有交互消息用户输入、模型回复、工具调用等直接参与模型推理作为 LLM 的输入上下文实时更新每次交互都会新增消息受模型 maxToken 限制需要上下文工程策略进行优化关于短期记忆的上下文工程策略压缩、卸载、摘要等将在下一章节中详细介绍。

3 长期记忆跨会话长期记忆与短期记忆形成双向交互一方面长期记忆从短期记忆中提取“事实”、“偏好”、“经验”等有效信息进行存储Record另一方面长期记忆中的信息会被检索并注入到短期记忆中辅助模型进行个性化推理Retrieve。

与短期记忆的交互Record写入从短期记忆的会话消息中提取有效信息通过LLM进行语义理解和抽取存储到长期记忆中Retrieve检索根据当前用户查询从长期记忆中检索相关信息注入到短期记忆中作为上下文辅助模型推理实践中的实现方式在 Agent 开发实践中长期记忆通常是一个独立的第三方组件因为其内部有相对比较复杂的流程信息提取、向量化、存储、检索等。

常见的长期记忆组件包括 Mem

Zep、Memos、ReMe 等这些组件提供了完整的 Record 和 Retrieve 能力Agent 框架通过 API 集成这些组件。

信息组织维度不同长期记忆产品在信息组织维度上有所差异一些产品主要关注个人信息个人记忆而一些产品除了支持个人记忆外还支持工具记忆、任务记忆等更丰富的维度。

用户维度个人记忆面向用户维度组织的实时更新的个人知识库用户画像分析报告个性化推荐系统千人千面处理具体任务时加载至短期记忆中业务领域维度沉淀的经验包括领域经验和工具使用经验可沉淀至领域知识库可通过强化学习微调沉淀至模型

短期记忆的上下文工程策略短期记忆直接参与 Agent 和 LLM 的交互随着对话历史增长上下文窗口会面临 token 限制和成本压力。

上下文工程策略旨在通过智能化的压缩、卸载和摘要技术在保持信息完整性的同时有效控制上下文大小。

**备注**需要说明的是各方对上下文工程的概念和理解存在些许差异。

狭义的上下文工程特指对短期记忆会话历史中各种压缩、摘要、卸载等处理机制主要解决上下文窗口限制和 token 成本问题广义的上下文工程则包括更广泛的上下文优化策略如非运行态的模型选择、Prompt 优化工程、知识库构建、工具集构建等这些都是在模型推理前对上下文进行优化的手段且这些因素都对模型推理结果有重要影响。

本章节主要讨论狭义的上下文工程即针对短期记忆的运行时处理策略。

1 核心策略针对短期记忆的上下文处理主要有以下几种策略上下文缩减Context Reduction上下文缩减通过减少上下文中的信息量来降低 token 消耗主要有两种方法

保留预览内容对于大块内容只保留前 N 个字符或关键片段作为预览原始完整内容被移除

2.

总结摘要使用 LLM 对整段内容进行

总结摘要保留关键信息丢弃细节这两种方法都会导致信息丢失但能有效减少 token 消耗。

上下文卸载Context Offloading上下文卸载主要解决被缩减的内容是否可恢复的问题。

当内容被缩减后原始完整内容被卸载到外部存储如文件系统、数据库等消息中只保留最小必要的引用如文件路径、UUID 等。

当需要完整内容时可以通过引用重新加载。

优势上下文更干净占用更小信息不丢随取随用。

适用于网页搜索结果、超长工具输出、临时计划等占 token 较多的内容。

上下文隔离Context Isolation通过多智能体架构将上下文拆分到不同的子智能体中类似单体拆分称多个微服务。

主智能体编写任务指令发送给子智能体子智能体的整个上下文仅由该指令组成。

子智能体完成任务后返回结果主智能体不关心子智能体如何执行只需要结果。

适用场景任务有清晰简短的指令只有最终输出才重要如代码库中搜索特定片段。

优势上下文小、开销低、简单直接。

策略选择原则以上三种策略上下文缩减、上下文卸载、上下文隔离需要根据数据的分类进行综合处理主要考虑因素包括时间远近近期消息通常更重要需要优先保留历史消息可以优先进行缩减或卸载数据类型不同类型的消息用户输入、模型回复、工具调用结果等重要性不同需要采用不同的处理策略信息可恢复性对于需要完整信息的内容应优先使用卸载策略对于可以接受信息丢失的内容可以使用缩减策略

2 各框架的实现方式各框架一般内置上下文处理策略通过参数化配置的方式指定具体策略。

Google ADK构建 Agent 时通过 events_compaction_config设置上下文处理策略和 Session 本身的数据存储独立。

from google.adk.apps.app import App, EventsCompactionConfig app App( namemy-agent, root_agentroot_agent, events_compaction_configEventsCompactionConfig( compaction_interval3, # 每3次新调用触发压缩 overlap_size1 # 包含前一个窗口的最后一次调用 ), )LangChain构建 Agent 时通过 middleware 机制中的 SummarizationMiddleware设置上下文处理参数与短期记忆本身的数据存储独立。

from langchain.agents import create_agent from langchain.agents.middleware import SummarizationMiddleware agent create_agent( modelgpt-4o, tools[...], middleware[ SummarizationMiddleware( modelgpt-4o-mini, max_tokens_before_summary4000, # 4000 tokens时触发摘要 messages_to_keep20, # 摘要后保留最后20条消息 ), ], )AgentScopeAgentScope 通过AutoContextMemory提供智能化的上下文工程解决方案。

AutoContextMemory 实现了 Memory接口当对话历史超过配置阈值时自动应用 6 种渐进式压缩策略从轻量级到重量级来减少上下文大小同时保留重要信息。

集成方式直接作为 Memory接口实现通过 memory参数集成到 Agent 中与框架深度集成无需额外的 middleware 或独立配置与 ADK 和 LangChain 的差异更精细化的压缩策略提供 6 种渐进式压缩策略压缩历史工具调用、卸载大型消息、摘要对话轮次等相比 ADK 的简单压缩和 LangChain 的摘要 middleware策略更加细化和可控集成方式直接实现 Memory 接口与 Agent 构建流程无缝集成而 ADK 和 LangChain 需要独立的配置对象或 middleware 机制完整可追溯性提供工作内存、原始内存、卸载上下文和压缩事件四层存储架构支持完整历史追溯而其他框架通常只提供压缩后的结果。

使用示例AutoContextMemory memory new AutoContextMemory( AutoContextConfig.builder() .msgThreshold(

.maxToken(128 *

.tokenRatio(

0.

.build(), model ); ReActAgent agent ReActAgent.builder() .name(Assistant) .model(model) .memory(memory) .build();

长期记忆技术架构及 Agent 框架集成与短期记忆不同长期记忆需要跨会话持久化存储并支持高效的检索和更新。

这需要一套完整的技术架构包括信息提取、向量化存储、语义检索等核心组件。

1 核心组件长期记忆涉及 record retrieve 两个核心流程需要以下核心组件

LLM 大模型提取短期记忆中的有效信息记忆的语义理解、抽取、决策和生成

Embedder 向量化将文本转换为语义向量支持相似性计算

VectorStore 向量数据库持久化存储记忆向量和元数据支持高效语义检索

GraphStore 图数据库存储实体-关系知识图谱支持复杂关系推理

Reranker重排序器对初步检索结果按语义相关性重新排序

SQLite记录所有记忆操作的审计日志支持版本回溯

2 Record Retrieve 流程Record记录LLM 事实提取 → 信息向量化 → 向量存储 →复杂关系存储→ SQLite 操作日志Retrieve检索User query 向量化 → 向量数据库语义检索 → 图数据库关系补充 →Reranker-LLM→ 结果返回

3 长期记忆与 RAG 的区别像 Mem0 这类面向 AI Agent 的个性化长期记忆系统与 RAGRetrieval-Augmented Generation在技术架构上有诸多相似之处但功能层面和场景上有明显区别技术层面的相似点

向量化存储都将文本内容通过 Embedding 模型转为向量存入向量数据库

相似性检索在用户提问时将当前 query 向量化在向量库中检索 top-k 最相关的条目

注入上下文生成将检索到的内容注入到模型交互上下文中辅助 LLM 生成最终回答

4 关键问题与挑战长期记忆系统在实际应用中面临诸多挑战这些挑战直接影响系统的可用性和用户体验。

准确性记忆的准确性包含两个层面有效的记忆管理需要具备智能的巩固、更新和遗忘机制这主要依赖于记忆系统中负责信息提取的模型能力和算法设计记忆相关性的检索准确度主要依赖于向量化检索重排的核心能力核心挑战记忆的建模需要完善强大的用户画像模型记忆的管理基于用户画像建模算法提取有效信息设计记忆更新机制向量化相关性检索能力提升检索准确率和相关性

安全和隐私记忆系统记住了大量用户隐私信息如何防止数据中毒等恶意攻击并保障用户隐私是必须解决的问题。

核心挑战数据加密与访问控制防止恶意数据注入透明的数据管理机制用户对自身数据的掌控权

多模态记忆支持文本记忆、视觉、语音仍被孤立处理如何构建统一的“多模态记忆空间”仍是未解难题。

核心挑战跨模态关联与检索统一的多模态记忆表示毫秒级响应能力

5 Agent 框架集成在 AgentScope 中可以通过集成第三方长期记忆组件来实现长期记忆功能。

常见的集成方式包括

4.

1 集成 Mem0Mem0 是一个开源的长期记忆框架几乎成为事实标准。

在 AgentScope 中集成 Mem0 的示例// 初始化Mem0长期记忆 Mem0LongTermMemory mem0Memory new Mem0LongTermMemory( Mem0Config.builder() .apiKey(your-mem0-api-key) .build() ); // 创建Agent并集成长期记忆 ReActAgent agent ReActAgent.builder() .name(Assistant) .model(model) .memory(memory) // 短期记忆 .longTermMemory(mem0Memory) // 长期记忆 .build();

4.

2 集成 ReMeReMe 是 AgentScope 官方提供的长期记忆实现与框架深度集成// 初始化ReMe长期记忆 ReMeLongTermMemory remeMemory ReMeLongTermMemory.builder() .userId(user

// 用户ID用于记忆隔离 .apiBaseUrl(http://localhost:

// ReMe服务地址 .build(); // 创建Agent并集成长期记忆 ReActAgent agent ReActAgent.builder() .name(Assistant) .model(model) .memory(memory) // 短期记忆 .longTermMemory(remeMemory) // 长期记忆 .longTermMemoryMode(LongTermMemoryMode.BOTH) // 记忆模式 .build();

行业趋势与产品对比

1 AI 记忆系统发展趋势AI 记忆系统的核心目标是让 AI 能像人类一样持续学习、形成长期记忆从而变得更智能、更个性化。

当前行业呈现出从研究原型向生产级系统演进、从单一技术向综合解决方案发展的趋势。

5.

1 当前发展的核心脉络

5.

2 技术发展趋势记忆即服务Memory-as-a-Service, MaaSAI Agent 是大模型、记忆、任务规划以及工具使用的集合体记忆管理将是 Agent 智能体的核心基础功能之一。

类似“数据库”之于传统软件记忆系统将成为 AI 应用的基础设施提供标准化的记忆服务接口、可扩展的存储和检索能力。

精细化记忆管理借鉴人脑记忆机制构建分层动态的记忆架构对记忆进行全生命周期管理。

技术路径包括LLM 驱动记忆提取向量化存储图数据库补充向量化检索海马体 LLM 提纯大脑皮层结合通过强化学习提升记忆管理表现。

多模态记忆系统多模态大模型的兴起推动记忆系统向多模态、跨模态方向发展要求存储具备跨模态关联与毫秒级响应能力。

参数化记忆Model 层集成记忆在 Transformer 架构中引入可学习的记忆单元 Memory Adapter实现模型层面原生支持用户维度的记忆。

优点是响应速度快但面临“灾难性遗忘”和更新成本高的挑战。

5.

3 当前主要的技术路径

外部记忆增强当前主流使用向量数据库等外部存储来记忆历史信息并在需要时通过检索相关信息注入当前对话。

这种方式灵活高效检索的准确性是关键。

参数化记忆深度内化直接将知识编码进模型的参数中。

这可以通过模型微调、知识编辑等技术实现优点是响应速度快但面临“灾难性遗忘”和更新成本高的挑战。

2 相关开源产品对比关于各产品的具体数据指标对比评测方式各有侧重因此评测结果不尽相同从实际情况看各方均以 mem0 为评测基准从各类技术指标评测结果以及开源社区的活跃度starissues 等方面mem0 仍然是占据长期记忆产品的领头地位。

结语记忆系统作为 AI Agent 的核心基础设施其发展直接影响着智能体的能力和用户体验。

现在各框架内置的压缩、卸载、摘要等策略已经能解决

% 的通用场景问题但对于特定行业或场景比如医疗、法律、金融等领域基于通用的上下文处理策略基础之上进行针对性的处理和更精细的压缩 prompt 设计仍然有较大的优化空间。

而长期记忆作为可独立演进的组件未来会更加贴近人脑的记忆演化模式包括记忆的巩固、强化、遗忘等全生命周期管理同时长期记忆应该以云服务模式提供通用的记忆服务共同助力 Agent 迈向更高阶的智能。

如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。

但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。

这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。

我在一线互联网企业工作十余年里指导过不少同行后辈。

帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。

2023年人才缺口已超百万凸显培养不足。

随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。

加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

大模型入门到实战全套学习大礼包

大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。

正确的学习路线可以为你节省时间少走弯路方向不对努力白费。

这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通

大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。

大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。

在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。

适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。

大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-

5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。

快速开发一个完整的基于 agent 对话机器人。

掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。

为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。

到此为止大概2个月的时间。

你已经成为了一名“AI小子”。

那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。

硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。

天道酬勤你越努力就会成为越优秀的自己。

如果你能在15天内完成所有的任务那你堪称天才。

然而如果你能完成

% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】