首页速度优化窥探视界：欧美AⅤ的文化密码与商业脉络

网站优化

9.1黄

《困境：当男生被困入女生思维迷宫》——一部颠覆想象的爱情喜剧

2026-06-12 15:46:30

阅读时长:8分钟

562次阅读

核心内容摘要

荷风送雅韵，视频映初心

大模型Memory模块是Agent长期智能的关键差异化能力工程本质分为记忆抽取与检索两部分。

抽取需处理信息选择、压缩和存储形态检索面临价格、精度和时延的不可能三角。

Memory设计是边界选择的组合问题决定Agent长期运行的一致性、可演化性和能力上限没有即插即用的解决方案。

即使今年 OpenAI 在模型能力上持续受到 Gemini 和 Claude 的追赶User Memory 依然是 ChatGPT 最难被复制、也最容易让用户产生依赖的差异化能力。

Claude Code 允许用户维护 claude.md自己撰写 Skill目标是在显式地把人类意图和做事方式写入系统记忆Cursor 通过记录用户是否接受 Tab 补全来进行 Online RL是在捕捉任务执行过程中的隐式反馈并用于实时迭代策略ChatGPT 在 Memory 之上延展出 Pluse、Atlas 等产品其实上是在把记忆当作一种长期资产来经营。

这些尝试看起来形式各异但背后的目标高度一致记录 →

总结 → 沉淀 → 形成 SOP→ 让 Agent 在真实环境中越跑越聪明这正是当下 LLM Memory 模块真正承担的角色。

也正因为如此无论是创业公司、学术研究、开源社区还是大厂都在密集投入这一方向。

本文尝试从工程视角出发

总结目前已经被验证过的一些 Memory 实践路径。

Memory 的工程本质只有两件事如果把 Memory 拆解到工程层面其实并不复杂。

所有系统无论形态多么花哨最终都绕不开两件事如何把信息写进记忆以及如何在需要时把记忆取出来。

也就是记忆的抽取Extraction记忆的检索Retrieval大量看似复杂的 Memory 系统实际上都是这两部分能力的不同组合。

记忆抽取模块Extraction在工程上一个完整的抽取流程通常可以理解为三段式结构Input→ Process →Output不同 Memory 产品的差异几乎都隐藏在这三个问题的答案里。

输入层你到底在“记什么”当前绝大多数 Memory 产品仍然只处理文本信息而且高度聚焦在对话消息列表这一输入形态。

无论是 Mem0 还是 Memobase基本都做出了相同的选择。

这并不是能力不足而是一个非常理性的工程判断。

对话天然具备清晰的 user / assistant 角色约束语义边界明确可控性强抽取过程也更容易保持稳定。

更重要的是对话本身已经是被 LLM 深度优化过的“中间表示”既有人类意图又包含足够上下文信息非常适合作为 Memory 抽取的起点。

相比之下通用日志、工具调用轨迹、原始 COT 文本虽然信息密度更高但往往缺乏统一结构语义粒度不稳定解析成本极高也很难形成跨项目、跨团队复用的通用解法。

因此大多数做记忆系统的团队都会优先从对话文本切入把问题收敛在一个可控范围内。

不过这并不意味着对话列表是唯一合理的记忆输入形态。

一些更偏向 Agent 框架的系统已经开始尝试拓展 Memory 的输入边界。

以阿里云的开源框架 AgentScope 中的 ReMe 为例它在能力设计上就已经显式支持“对话之外”的记忆输入例如结构化的工具调用结果、任务执行轨迹、以及被外置到文件系统中的 Working Memory。

这类输入不再是自然语言对话而是更接近运行时日志和行为记录的数据形态。

但值得注意的是这类扩展目前仍然高度依赖具体框架和场景并没有形成统一范式。

很多时候它们依然需要被二次

总结、压缩成文本或半结构化表示才能真正进入长期 memory 系统。

多模态记忆需求仍未真正爆发多模态记忆在当前阶段更多是需求驱动而非能力驱动主要集中在机器人、AI 手机、AI 眼镜、摄像头等场景中。

这些系统确实需要处理图像、视频和音频但在 Memory 层面主流工程实践仍然高度一致。

无论输入多么复杂最终几乎都会走向同一条 pipeline多模态输入 → 语义压缩 → 转写为文本或结构化摘要 → 进入既有的文本 Memory 流程此处参考 Memu。

这并不是因为多模态信息不重要而是因为在当前阶段文本仍然是最稳定、最通用、也最容易被检索和重排的记忆载体。

真正决定多模态 Memory 是否会形成独立分支的并不是输入类型是否丰富而是是否出现了稳定的新交互范式具身智能使得非文本信息本身具备长期记忆价值。

在那之前多模态更像是 Memory 系统的“前置感知层”而不是记忆本体。

处理层记住“未来还会用到的东西”抽取模块的目标非常明确一方面压缩信息降低存储和检索成本另一方面筛选出那些未来仍然可能影响决策分布的内容。

当前最常见的做法是让 LLM 扮演某种“理解者”的角色从连续对话中抽取用户画像和关键事件。

画像通常描述偏好、习惯和长期约束事件则刻画目标设立、决策变化和状态转移。

真正决定系统上限的不是模型能力而是抽象方式。

在通用 Chatbot 场景下很多团队会尝试用庞大的标签体系覆盖世界。

设计几百个一级标签、上千甚至上万个二级标签试图穷举所有可能的话题和用户特征。

但在长期运行中这种方式维护成本极高大量标签在真实用户身上从未被触发更重要的是这并不符合人类记忆的工作方式。

人类的长期记忆对极少数高频主题异常敏感而对大量低频信息则自然淡化。

工程上可以把抽取过程本身做成一个持续运行的 Agent让它不断监控新对话与历史记忆之间的重合程度。

当某些话题在不同时间反复出现、被持续强化时系统才将其提升为独立主题并为其建立专属的 Memory 结构。

这种主题自进化的方式在长期运行中往往更稳定也更具扩展性Memu 的相关设计就是一个值得参考的方向。

记忆管理机制遗忘更新和修正需要特别强调的是Memory 并不是只增不减的。

如果一个 Memory 系统不支持遗忘、修正和冲突处理它迟早会走向失控。

旧的偏好、新设的目标、已经被推翻的判断如果在系统中长期并存而不被更新最终只会让 Agent 在不同场景下做出相互矛盾的决策。

对用户而言这种体验并不是“AI 记得很多”而是“AI 开始前后不一”。

覆盖、追加、时间衰减、增量重写以及冲突合并看似是不同的工程手段但它们本质上都在回答同一个问题当新信息出现时旧信息是否仍然成立。

Memory 系统需要做的并不是尽可能多地保存历史而是持续判断哪些记忆还应当参与当前的认知过程。

Memory 的更新策略决定的不是存储效率而是 Agent 能否在时间维度上保持自我一致并在此基础上持续进化。

输出层记忆的存储形态与能力边界如果说前面的抽取解决的是‘记什么’那接下来的问题是这些记忆最终以什么形态存在又会反过来限制系统能做什么。

更准确地说记忆本身并没有天然的形态它的表达方式取决于你希望系统如何使用它。

从工程视角看可以把 Memory 理解为一条连续的轴一端是几乎未经处理的原始信息中间是被压缩、结构化后的表示另一端则是高度抽象、可复用的经验。

这些存在方式都合理选型的决定性因素是你想怎样利用这些记忆。

落到具体系统中这条轴对应多种并存的记忆形态。

用户画像用于描述长期稳定的特征工具调用结果和任务执行状态保存的是行为轨迹而偏好和经验则更接近决策层面的背景条件。

这些形态并不是彼此排斥的而是共同构成了 Agent 的长期状态空间。

另外一个需要做取舍的是这些记忆以什么方式被存储。

这里并不存在所谓的“最优解”因为不同的存储方案本质上是在为系统划定不同的能力边界。

把记忆直接塞进上下文窗口路径最短、实现最简单但长度和可控性都极其有限ChatGPT使用 MongoDB 这样的文档数据库可以灵活地存储结构化画像和事件但检索能力更多依赖上层逻辑向量数据库在语义召回上效率极高却不擅长强约束和精确过滤Mem0关系型数据库在 ID 和关系约束下表现稳定适合规则明确的检索场景Memobase图数据库则更适合表达多跳关系以及记忆随时间演化的结构Zep而在 Code Agent 等场景中本地文件系统凭借清晰的目录层级和天然的上下文隔离反而成为一种非常高效的选择Claude code。

因此记忆的输出层设计从来不是“选哪种数据库”的技术偏好问题而是在回答一个更根本的问题你希望 Memory 系统在检索、组合和演化层面具备怎样的能力边界。

这个边界一旦确定存储形态往往只是结果而不是起点。

记忆检索模块Retrieval如果把检索画成一条轴一端是永不检索另一端是每次都检索。

首先需要明确的是并不是所有对话都需要 Memory 参与。

当用户寒暄、提问广域知识或当前上下文已经充分时检索反而可能干扰生成。

真正需要检索的是那些上下文不足、任务存在长期依赖或 Agent 需要进行自我反思的场景。

检索的工程约束记忆的检索策略从来都不是一个独立存在的模块而是被存储结构强约束的结果。

你选择了怎样的记忆组织方式几乎就预先决定了你能用哪些检索手段以及这些手段的上限在哪里。

在真实系统中记忆检索几乎从来不是一次性的动作而更像是一条不断收缩、不断校准的路径。

系统可能先对用户输入进行 query 重写把模糊、口语化甚至带有上下文依赖的表达转换为更稳定、更适合检索的语义形式随后通过语义召回或关键词匹配在大规模记忆空间中完成一次初步筛选接着再结合规则约束或领域信息剔除明显不相关的候选内容最后对剩余结果进行加权打分并通过一到多轮 rerank逐步压缩可进入上下文的记忆规模。

在对准确性要求更高的场景中这条链路还可能引入 LLM 参与重排让模型在更高语义层级上判断哪些记忆在“此刻、此任务”下真正有用。

而当检索结果仍然无法支撑当前问题时复杂系统会基于新的上下文或中间判断重新触发一次检索过程对 query、候选空间或排序策略进行调整。

需要强调的是这些过滤、召回与重排机制并不存在严格的先后顺序。

它们更像是一组可组合、可回环的能力模块会根据场景、成本和实时反馈被动态拼装。

真正成熟的记忆检索系统并不是执行一条固定流程而是在不断试探中逐步逼近“此刻最有价值的那几条记忆”。

但无论这条链路设计得多么复杂都绕不开一个现实问题检索不是免费午餐。

每增加一步召回或重排都会引入额外的计算成本和时延每降低一次过滤阈值都会换来更高的噪声比例而每一次试图提升召回精度往往都意味着更慢的响应速度或更高的推理成本。

这三者之间存在一个几乎无法打破的约束关系——价格、召回精度和时延构成了记忆检索中的不可能三角。

工程上的选择从来不是“哪种方法更先进”而是“在当前业务约束下哪两个维度更重要”。

有些系统宁愿牺牲部分精度也要保证低延迟和可控成本有些系统则接受更高价格和更慢响应换取在关键任务中的确定性。

记忆检索的设计本质上是一场持续的 Tradeoff而不是一次性做对的决策。

工程现实Memory 不存在“即插即用”理论讲完落到业务中往往会非常混乱。

没有人会因为要做 Memory就随手接一个方案上线试运行。

那么我们该如何选择最佳的记忆实现策略呢OPPO 最新发的论文 Memevolve 是一个非常值得关注的尝试。

他们将 Memory 系统视为一个可优化对象构建 AgentKB定义 Ω 记忆策略空间让 Memory Agent 在其中持续搜索和演化并通过多套评测集验证策略效果。

尽管策略空间仍然是预定义集合但方向非常清晰强烈推荐关注。

这相当于创建了一块试验田让每个做 Memory 的人都可以在这里测试迭代其工程策略。

结语Memory 从来不是一个附加能力也不是为了“看起来更聪明”而堆出来的功能模块。

它本质上是一套长期状态与经验的管理系统决定了一个 Agent 是否具备跨时间尺度积累与自我修正的能力。

没有 Memory 的 Agent每一次交互都在重新开始而拥有 Memory 的 Agent才有可能在不断修正中形成稳定的认知与行为模式。

从工程角度看Memory 决定的从来不是某一次回答的质量而是系统在长期运行中的一致性、可演化性以及能力上限。

Memory 系统的设计本质上是一组边界选择的组合问题——在成本、精度、延迟、抽象粒度与复杂度之间不断权衡最终找到最适合自己业务的那一套方案。

做好这件事很难很复杂所以才足够迷人。

最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。

那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。

从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到

3

4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升

6

6%。

AI产业的快速扩张也让人才供需矛盾愈发突出。

麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。

资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。

目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。

这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。

课堂上不光教理论还带着学员做了十多个真实项目。

学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。

零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。

业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。

获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

9.1黄

核心内容摘要

荷风送雅韵，视频映初心

总结 → 沉淀 → 形成 SOP→ 让 Agent 在真实环境中越跑越聪明这正是当下 LLM Memory 模块真正承担的角色。

总结目前已经被验证过的一些 Memory 实践路径。

记忆抽取模块Extraction在工程上一个完整的抽取流程通常可以理解为三段式结构Input→ Process →Output不同 Memory 产品的差异几乎都隐藏在这三个问题的答案里。

总结、压缩成文本或半结构化表示才能真正进入长期 memory 系统。

记忆检索模块Retrieval如果把检索画成一条轴一端是永不检索另一端是每次都检索。

4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升

6%。

3D18+MMD花火-3D18+MMD花火应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

9.1黄

核心内容摘要

荷风送雅韵，视频映初心

总结 → 沉淀 → 形成 SOP→ 让 Agent 在真实环境中越跑越聪明这正是当下 LLM Memory 模块真正承担的角色。

总结目前已经被验证过的一些 Memory 实践路径。

记忆抽取模块Extraction在工程上一个完整的抽取流程通常可以理解为三段式结构Input→ Process →Output不同 Memory 产品的差异几乎都隐藏在这三个问题的答案里。

总结、压缩成文本或半结构化表示才能真正进入长期 memory 系统。

记忆检索模块Retrieval如果把检索画成一条轴一端是永不检索另一端是每次都检索。

4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升

6%。

3D18+MMD花火-3D18+MMD花火应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐