首页速度优化SRWE：3个显示维度自定义工具解决创作者的分辨率限制难题

网站优化

【Seedance内部绝密模板集】：2024Q2已淘汰3版、仅保留5套经AB测试验证的SOP级Prompt结构

LLM智能客服项目实战：从零搭建高可用对话系统的避坑指南

2026-06-12 16:33:52

阅读时长:7分钟

562次阅读

核心内容摘要

计算机小程序毕设实战-基于手机端的陕西地区特色农产品团购平台设计与实现小程序特色农产品交易小程序的设计与实现【完整源码+LW+部署说明+演示视频，全bao一条龙等】

记忆系统是解决AI Agent上下文限制和成本的

关键技术分为短期(会话级)和长期(跨会话)记忆。

短期记忆需通过上下文工程策略(缩减、卸载、隔离)处理token限制长期记忆依赖LLM提取、向量化存储和语义检索。

行业趋势向记忆即服务(MaaS)和多模态记忆系统发展各框架提供不同实现方案未来将更贴近人脑记忆模式。

前言随着 AI Agent 应用的快速发展智能体需要处理越来越复杂的任务和更长的对话历史。

然而LLM 的上下文窗口限制、不断增长的 token 成本以及如何让 AI“记住”用户偏好和历史交互都成为了构建实用 AI Agent 系统面临的核心挑战。

记忆系统Memory System正是为了解决这些问题而诞生的

关键技术。

记忆系统使 AI Agent 能够像人类一样在单次对话中保持上下文连贯性短期记忆同时能够跨会话记住用户偏好、历史交互和领域知识长期记忆。

这不仅提升了用户体验的连续性和个性化程度也为构建更智能、更实用的 AI 应用奠定了基础。

Memory 基础概念

1 记忆的定义与分类对于 AI Agent 而言记忆至关重要因为它使它们能够记住之前的互动、从反馈中学习并适应用户的偏好。

对“记忆”的定义有两个层面会话级记忆用户和智能体 Agent 在一个会话中的多轮交互user-query response跨会话记忆从用户和智能体 Agent 的多个会话中抽取的通用信息可以跨会话辅助 Agent 推理

2 各 Agent 框架的定义差异各个 Agent 框架对记忆的概念命名各有不同但共同的是都遵循上一节中介绍的两个不同层面的划分会话级和跨会话级。

框架说明Google ADKSession 表示单次持续交互Memory 是长期知识库可包含来自多次对话的信息LangChainShort-term memory 用于单线程或对话中记住之前的交互Long-term memory 不属于基础核心组件而是高阶的“个人知识库”外挂AgentScope虽然官方文档强调需求驱动但 API 层面仍然是两个组件memory 和 long_term_memory功能层面有明确区分习惯上可以将会话级别的历史消息称为短期记忆把可以跨会话共享的信息称为长期记忆但本质上两者并不是通过简单的时间维度进行的划分从实践层面上以是否跨 Session 会话来进行区分。

长期记忆的信息从短期记忆中抽取提炼而来根据短期记忆中的信息实时地更新迭代而其信息又会参与到短期记忆中辅助模型进行个性化推理。

Agent 框架集成记忆系统的架构各 Agent 框架在集成记忆系统时虽然实现细节不同但都遵循相似的架构模式。

理解这些通用模式有助于更好地设计和实现记忆系统。

1 Agent 框架集成记忆的通用模式各 Agent 框架集成记忆系统通常遵循以下通用模式

Step1推理前加载 - 根据当前 user-query 从长期记忆中加载相关信息

Step2上下文注入 - 从长期记忆中检索的信息加入当前短期记忆中辅助模型推理

Step3记忆更新 - 短期记忆在推理完成后加入到长期记忆中

Step4信息处理 - 长期记忆模块中结合 LLM向量化模型进行信息提取和检索

2 短期记忆Session 会话短期记忆存储会话中产生的各类消息包括用户输入、模型回复、工具调用及其结果等。

这些消息直接参与模型推理实时更新并受模型的 maxToken 限制。

当消息累积导致上下文窗口超出限制时需要通过上下文工程策略压缩、卸载、摘要等进行处理这也是上下文工程主要处理的部分。

核心特点存储会话中的所有交互消息用户输入、模型回复、工具调用等直接参与模型推理作为 LLM 的输入上下文实时更新每次交互都会新增消息受模型 maxToken 限制需要上下文工程策略进行优化关于短期记忆的上下文工程策略压缩、卸载、摘要等将在下一章节中详细介绍。

3 长期记忆跨会话长期记忆与短期记忆形成双向交互一方面长期记忆从短期记忆中提取“事实”、“偏好”、“经验”等有效信息进行存储Record另一方面长期记忆中的信息会被检索并注入到短期记忆中辅助模型进行个性化推理Retrieve。

与短期记忆的交互Record写入从短期记忆的会话消息中提取有效信息通过LLM进行语义理解和抽取存储到长期记忆中Retrieve检索根据当前用户查询从长期记忆中检索相关信息注入到短期记忆中作为上下文辅助模型推理实践中的实现方式在 Agent 开发实践中长期记忆通常是一个独立的第三方组件因为其内部有相对比较复杂的流程信息提取、向量化、存储、检索等。

常见的长期记忆组件包括 Mem

Zep、Memos、ReMe 等这些组件提供了完整的 Record 和 Retrieve 能力Agent 框架通过 API 集成这些组件。

信息组织维度不同长期记忆产品在信息组织维度上有所差异一些产品主要关注个人信息个人记忆而一些产品除了支持个人记忆外还支持工具记忆、任务记忆等更丰富的维度。

用户维度个人记忆面向用户维度组织的实时更新的个人知识库用户画像分析报告个性化推荐系统千人千面处理具体任务时加载至短期记忆中业务领域维度沉淀的经验包括领域经验和工具使用经验可沉淀至领域知识库可通过强化学习微调沉淀至模型

短期记忆的上下文工程策略短期记忆直接参与 Agent 和 LLM 的交互随着对话历史增长上下文窗口会面临 token 限制和成本压力。

上下文工程策略旨在通过智能化的压缩、卸载和摘要技术在保持信息完整性的同时有效控制上下文大小。

**备注**需要说明的是各方对上下文工程的概念和理解存在些许差异。

狭义的上下文工程特指对短期记忆会话历史中各种压缩、摘要、卸载等处理机制主要解决上下文窗口限制和 token 成本问题广义的上下文工程则包括更广泛的上下文优化策略如非运行态的模型选择、Prompt 优化工程、知识库构建、工具集构建等这些都是在模型推理前对上下文进行优化的手段且这些因素都对模型推理结果有重要影响。

本章节主要讨论狭义的上下文工程即针对短期记忆的运行时处理策略。

1 核心策略针对短期记忆的上下文处理主要有以下几种策略上下文缩减Context Reduction上下文缩减通过减少上下文中的信息量来降低 token 消耗主要有两种方法

保留预览内容对于大块内容只保留前 N 个字符或关键片段作为预览原始完整内容被移除

2.

总结摘要使用 LLM 对整段内容进行

总结摘要保留关键信息丢弃细节这两种方法都会导致信息丢失但能有效减少 token 消耗。

上下文卸载Context Offloading上下文卸载主要解决被缩减的内容是否可恢复的问题。

当内容被缩减后原始完整内容被卸载到外部存储如文件系统、数据库等消息中只保留最小必要的引用如文件路径、UUID 等。

当需要完整内容时可以通过引用重新加载。

优势上下文更干净占用更小信息不丢随取随用。

适用于网页搜索结果、超长工具输出、临时计划等占 token 较多的内容。

上下文隔离Context Isolation通过多智能体架构将上下文拆分到不同的子智能体中类似单体拆分称多个微服务。

主智能体编写任务指令发送给子智能体子智能体的整个上下文仅由该指令组成。

子智能体完成任务后返回结果主智能体不关心子智能体如何执行只需要结果。

适用场景任务有清晰简短的指令只有最终输出才重要如代码库中搜索特定片段。

优势上下文小、开销低、简单直接。

策略选择原则以上三种策略上下文缩减、上下文卸载、上下文隔离需要根据数据的分类进行综合处理主要考虑因素包括时间远近近期消息通常更重要需要优先保留历史消息可以优先进行缩减或卸载数据类型不同类型的消息用户输入、模型回复、工具调用结果等重要性不同需要采用不同的处理策略信息可恢复性对于需要完整信息的内容应优先使用卸载策略对于可以接受信息丢失的内容可以使用缩减策略

2 各框架的实现方式各框架一般内置上下文处理策略通过参数化配置的方式指定具体策略。

Google ADK构建 Agent 时通过 events_compaction_config设置上下文处理策略和 Session 本身的数据存储独立。

from google.adk.apps.app import App, EventsCompactionConfig app App( namemy-agent, root_agentroot_agent, events_compaction_configEventsCompactionConfig( compaction_interval3, # 每3次新调用触发压缩 overlap_size1 # 包含前一个窗口的最后一次调用 ), )LangChain构建 Agent 时通过 middleware 机制中的 SummarizationMiddleware设置上下文处理参数与短期记忆本身的数据存储独立。

from langchain.agents import create_agent from langchain.agents.middleware import SummarizationMiddleware agent create_agent( modelgpt-4o, tools[...], middleware[ SummarizationMiddleware( modelgpt-4o-mini, max_tokens_before_summary4000, # 4000 tokens时触发摘要 messages_to_keep20, # 摘要后保留最后20条消息 ), ], )AgentScopeAgentScope 通过AutoContextMemory提供智能化的上下文工程解决方案。

AutoContextMemory 实现了 Memory接口当对话历史超过配置阈值时自动应用 6 种渐进式压缩策略从轻量级到重量级来减少上下文大小同时保留重要信息。

集成方式直接作为 Memory接口实现通过 memory参数集成到 Agent 中与框架深度集成无需额外的 middleware 或独立配置与 ADK 和 LangChain 的差异更精细化的压缩策略提供 6 种渐进式压缩策略压缩历史工具调用、卸载大型消息、摘要对话轮次等相比 ADK 的简单压缩和 LangChain 的摘要 middleware策略更加细化和可控集成方式直接实现 Memory 接口与 Agent 构建流程无缝集成而 ADK 和 LangChain 需要独立的配置对象或 middleware 机制完整可追溯性提供工作内存、原始内存、卸载上下文和压缩事件四层存储架构支持完整历史追溯而其他框架通常只提供压缩后的结果。

使用示例AutoContextMemory memory new AutoContextMemory( AutoContextConfig.builder() .msgThreshold(

.maxToken(128 *

.tokenRatio(

0.

.build(), model ); ReActAgent agent ReActAgent.builder() .name(Assistant) .model(model) .memory(memory) .build();详细文档关于 AutoContextMemory 的 6 种压缩策略、存储架构和高级配置请参考 AutoContextMemory 详细文档。

长期记忆技术架构及 Agent 框架集成与短期记忆不同长期记忆需要跨会话持久化存储并支持高效的检索和更新。

这需要一套完整的技术架构包括信息提取、向量化存储、语义检索等核心组件。

1 核心组件长期记忆涉及 record retrieve 两个核心流程需要以下核心组件

LLM 大模型提取短期记忆中的有效信息记忆的语义理解、抽取、决策和生成

Embedder 向量化将文本转换为语义向量支持相似性计算

VectorStore 向量数据库持久化存储记忆向量和元数据支持高效语义检索

GraphStore 图数据库存储实体-关系知识图谱支持复杂关系推理

Reranker重排序器对初步检索结果按语义相关性重新排序

SQLite记录所有记忆操作的审计日志支持版本回溯

2 Record Retrieve 流程Record记录LLM 事实提取 → 信息向量化 → 向量存储 →复杂关系存储→ SQLite 操作日志Retrieve检索User query 向量化 → 向量数据库语义检索 → 图数据库关系补充 →Reranker-LLM→ 结果返回

3 长期记忆与 RAG 的区别像 Mem0 这类面向 AI Agent 的个性化长期记忆系统与 RAGRetrieval-Augmented Generation在技术架构上有诸多相似之处但功能层面和场景上有明显区别技术层面的相似点

向量化存储都将文本内容通过 Embedding 模型转为向量存入向量数据库

相似性检索在用户提问时将当前 query 向量化在向量库中检索 top-k 最相关的条目

注入上下文生成将检索到的内容注入到模型交互上下文中辅助 LLM 生成最终回答

4 关键问题与挑战长期记忆系统在实际应用中面临诸多挑战这些挑战直接影响系统的可用性和用户体验。

准确性记忆的准确性包含两个层面有效的记忆管理需要具备智能的巩固、更新和遗忘机制这主要依赖于记忆系统中负责信息提取的模型能力和算法设计记忆相关性的检索准确度主要依赖于向量化检索重排的核心能力核心挑战记忆的建模需要完善强大的用户画像模型记忆的管理基于用户画像建模算法提取有效信息设计记忆更新机制向量化相关性检索能力提升检索准确率和相关性

安全和隐私记忆系统记住了大量用户隐私信息如何防止数据中毒等恶意攻击并保障用户隐私是必须解决的问题。

核心挑战数据加密与访问控制防止恶意数据注入透明的数据管理机制用户对自身数据的掌控权

多模态记忆支持文本记忆、视觉、语音仍被孤立处理如何构建统一的“多模态记忆空间”仍是未解难题。

核心挑战跨模态关联与检索统一的多模态记忆表示毫秒级响应能力

5 Agent 框架集成在 AgentScope 中可以通过集成第三方长期记忆组件来实现长期记忆功能。

常见的集成方式包括

4.

1 集成 Mem0Mem0 是一个开源的长期记忆框架几乎成为事实标准。

在 AgentScope 中集成 Mem0 的示例// 初始化Mem0长期记忆 Mem0LongTermMemory mem0Memory new Mem0LongTermMemory( Mem0Config.builder() .apiKey(your-mem0-api-key) .build() ); // 创建Agent并集成长期记忆 ReActAgent agent ReActAgent.builder() .name(Assistant) .model(model) .memory(memory) // 短期记忆 .longTermMemory(mem0Memory) // 长期记忆 .build();

4.

2 集成 ReMeReMe 是 AgentScope 官方提供的长期记忆实现与框架深度集成// 初始化ReMe长期记忆 ReMeLongTermMemory remeMemory ReMeLongTermMemory.builder() .userId(user

// 用户ID用于记忆隔离 .apiBaseUrl(http://localhost:

// ReMe服务地址 .build(); // 创建Agent并集成长期记忆 ReActAgent agent ReActAgent.builder() .name(Assistant) .model(model) .memory(memory) // 短期记忆 .longTermMemory(remeMemory) // 长期记忆 .longTermMemoryMode(LongTermMemoryMode.BOTH) // 记忆模式 .build();

行业趋势与产品对比

1 AI 记忆系统发展趋势AI 记忆系统的核心目标是让 AI 能像人类一样持续学习、形成长期记忆从而变得更智能、更个性化。

当前行业呈现出从研究原型向生产级系统演进、从单一技术向综合解决方案发展的趋势。

5.

1 当前发展的核心脉络

5.

2 技术发展趋势记忆即服务Memory-as-a-Service, MaaSAI Agent 是大模型、记忆、任务规划以及工具使用的集合体记忆管理将是 Agent 智能体的核心基础功能之一。

类似“数据库”之于传统软件记忆系统将成为 AI 应用的基础设施提供标准化的记忆服务接口、可扩展的存储和检索能力。

精细化记忆管理借鉴人脑记忆机制构建分层动态的记忆架构对记忆进行全生命周期管理。

技术路径包括LLM 驱动记忆提取向量化存储图数据库补充向量化检索海马体 LLM 提纯大脑皮层结合通过强化学习提升记忆管理表现。

多模态记忆系统多模态大模型的兴起推动记忆系统向多模态、跨模态方向发展要求存储具备跨模态关联与毫秒级响应能力。

参数化记忆Model 层集成记忆在 Transformer 架构中引入可学习的记忆单元 Memory Adapter实现模型层面原生支持用户维度的记忆。

优点是响应速度快但面临“灾难性遗忘”和更新成本高的挑战。

5.

3 当前主要的技术路径

外部记忆增强当前主流使用向量数据库等外部存储来记忆历史信息并在需要时通过检索相关信息注入当前对话。

这种方式灵活高效检索的准确性是关键。

参数化记忆深度内化直接将知识编码进模型的参数中。

这可以通过模型微调、知识编辑等技术实现优点是响应速度快但面临“灾难性遗忘”和更新成本高的挑战。

2 相关开源产品对比关于各产品的具体数据指标对比评测方式各有侧重因此评测结果不尽相同从实际情况看各方均以 mem0 为评测基准从各类技术指标评测结果以及开源社区的活跃度starissues 等方面mem0 仍然是占据长期记忆产品的领头地位。

结语记忆系统作为 AI Agent 的核心基础设施其发展直接影响着智能体的能力和用户体验。

现在各框架内置的压缩、卸载、摘要等策略已经能解决

% 的通用场景问题但对于特定行业或场景比如医疗、法律、金融等领域基于通用的上下文处理策略基础之上进行针对性的处理和更精细的压缩 prompt 设计仍然有较大的优化空间。

而长期记忆作为可独立演进的组件未来会更加贴近人脑的记忆演化模式包括记忆的巩固、强化、遗忘等全生命周期管理同时长期记忆应该以云服务模式提供通用的记忆服务共同助力 Agent 迈向更高阶的智能。

AI时代未来的就业机会在哪里答案就藏在大模型的浪潮里。

从ChatGPT、DeepSeek等日常工具到自然语言处理、计算机视觉、多模态等核心领域技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能就是把握高薪未来。

那么普通人如何抓住大模型风口AI技术的普及对个人能力提出了新的要求在AI时代持续学习和适应新技术变得尤为重要。

无论是企业还是个人都需要不断更新知识体系提升与AI协作的能力以适应不断变化的工作环境。

因此这里给大家整理了一份《2026最新大模型全套学习资源》包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等带你从零基础入门到精通快速掌握大模型技术由于篇幅有限有需要的小伙伴可以扫码获取

成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。

这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

书籍含电子版PDF

大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。

大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。

大模型行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

大模型面试题面试不仅是技术的较量更需要充分的准备。

在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。

为什么大家都在学AI大模型随着AI技术的发展企业对人才的需求从“单一技术”转向 “AI行业”双背景。

企业对人才的需求从“单一技术”转向 “AI行业”双背景。

金融AI、制造AI、医疗AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员近期科技巨头英特尔裁员2万人传统岗位不断缩减因此转行AI势在必行这些资料有用吗这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。

本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

大模型全套学习资料已整理打包有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】