首页速度优化【17cc官方版】开启无限可能，重塑你的数字生活！

网站优化

VX站破解版免费下载：解锁无限可能，畅享数字自由！

免费网站推广的黄金法则：零成本引爆流量的终极秘籍

2026-06-09 13:49:12

阅读时长:8分钟

562次阅读

核心内容摘要

璀璨夜空下的心动，【花火272278,297446,13577】点亮你的专属浪漫

美国十次：一次难以忘怀的美国之旅

面试官问“Agent 对话太长了上下文爆了怎么办”“2 年 Agent 开发经验主导过多个 Agent 项目上线熟悉 LangChain/LangGraph”这份简历挺漂亮的。

但我发现一个有意思的现象能把 Agent 跑起来的人很多能回答上下文超了怎么处理的人很少。

这场面试候选人就在这个问题上栽了跟头。

Round 1上下文窗口满了你怎么处理面试官“假设你的 Agent 跑了 50 轮工具调用上下文快超了你会怎么处理”候选人“呃…直接截断保留最近的消息”正解直接截断是最差的选择——你可能把关键信息给丢了。

上下文管理有两种主流方案Observation Masking观察遮蔽和LLM Summarization摘要压缩。

Observation Masking把较早的观察结果替换成占位符告诉模型此处省略了部分内容。

工程配置保留最近 10 轮对话效果最好来源JetBrains Research再早的内容用占位符标记不是直接删除好处是快、便宜不需要额外调用 LLMLLM Summarization用一个独立的 LLM通常是小模型对历史内容做摘要压缩成几句话。

工程配置每 21 轮做一次摘要同时保留最近 10 轮原文摘要模型用 GPT-4o-mini 或 Claude Haiku成本低摘要后 token 通常能压缩

倍混合方案JetBrains Research 的研究表明混合使用两种方案效果最好比纯 Observation Masking 成本低 7%比纯 LLM Summarization 成本低 11%成功率还提升了约

6%要点速记别直接截断会丢关键信息两种主流方案Observation Masking快但粗糙、LLM Summarization准但有成本混合方案保留最近 10 轮原文更早内容做摘要每

轮触发一次摘要是常见配置Round 2什么时候触发压缩阈值怎么设面试官“摘要压缩不是免费的你怎么决定什么时候触发”候选人“呃…等上下文快满了再压缩”面试官内心 OS这么被动生产环境早就炸了…正解等上下文满了才压缩是最笨的做法——你已经来不及了。

压缩触发有两种策略被动触发和主动触发。

被动触发基于阈值当上下文使用量达到某个比例时触发压缩。

关键参数Tmax触发阈值通常设 80%-95%比如 128k 窗口设 100k 触发Tretained保留量压缩后保留多少 token通常是窗口的 30%-50%Factory.ai 的配置参考触发阈值80% 上下文窗口压缩后保留最近 10 轮原文摘要主动触发基于任务阶段不等 token 堆积而是在任务完成时主动压缩。

触发时机每完成一个子任务后每执行完一次 tool call 后每

轮对话后Google ADK 的做法默认在 85% 上下文时触发研究发现设成 25% 反而能收集更多事件用于分析任务类型决定阈值不同任务对上下文的依赖程度不同任务类型推荐触发阈值原因调试 Debug90%-95%状态依赖强晚压缩代码审查80%-85%需要前后对比简单问答50%-60%可以激进压缩文档生成70%-80%中等依赖要点速记被动触发80%-95% 上下文使用率时启动主动触发每

轮或每个子任务完成后调试任务阈值设高90%问答任务可以设低

%Tmax触发线和 Tretained保留量是两个核心参数Round 3压缩过度导致信息丢失怎么办面试官“我们实际项目里遇到一个问题——压缩后 Agent 老是忘记之前做过什么反复重复操作。

怎么解决”候选人“…这个确实没遇到过。

”正解这是典型的过度压缩问题压得太狠会适得其反。

为什么会出问题压缩把关键信息摘要掉了Agent 需要时必须重新获取导致额外的 API 调用re-fetch更高的延迟任务循环做了忘、忘了做Factory.ai 的研究显示在迭代式代码审查这种场景激进压缩的 round-trip 成本可能超过省下的 token 费用来源Factory.ai。

结构化摘要 vs 通用摘要通用摘要把所有内容压成一段话信息损失大。

结构化摘要按类别保留关键信息信息损失小。

结构化摘要需要保留的内容Session Intent用户这次会话想做什么关键标识符文件路径、函数名、变量名操作记录做过哪些操作结果是什么待办事项还有什么没完成代码示例LangChain 风格pythonsummarization_prompt “”请按以下结构摘要对话历史会话目标{用户想要完成什么}已完成操作操作1{结果}操作2{结果}关键信息文件路径{paths}函数/类{identifiers}待办事项{还没完成的}“”Factory.ai 的测试结果结构化摘要比 OpenAI 和 Anthropic 的通用摘要保留了更多有用信息来源Factory.ai。

压缩检索的混合方案把摘要当作索引详细信息存到外部存储摘要保留关键标识符文件名、函数名详细内容存到 recall storage 或 archival storage需要时通过标识符检索完整内容这就是 MemGPT 的核心思想——把 LLM 当成操作系统上下文窗口当成 RAM外部存储当成硬盘。

要点速记过度压缩会导致 re-fetch成本可能更高用结构化摘要替代通用摘要保留目标、操作记录、关键标识符摘要只是索引详细内容存到外部存储MemGPT 思路上下文是 RAM外部存储是硬盘Round 4LLMLingua 听说过吗和摘要有什么区别面试官“除了摘要还有没有其他压缩方法比如 LLMLingua”候选人“听说过但没用过…”正解LLMLingua 是另一种思路——不是语义压缩而是 token 级别的剪枝。

工作原理LLMLingua 用一个小模型如 GPT-2 或 LLaMA-7B计算每个 token 的困惑度perplexity困惑度低的 token → 信息量小 → 可以删困惑度高的 token → 信息量大 → 保留三个核心模块Budget Controller控制不同部分的压缩比例指令部分10%-20% 压缩要保留清晰度Few-shot 示例60%-80% 压缩冗余度高问题部分0%-10% 压缩必须保留Token-level Compression逐 token 判断是否删除Alignment对齐到目标 LLM通过指令微调LLMLingua 家族LLMLingua20x 压缩性能损失约

5%来源Microsoft ResearchLongLLMLingua针对长上下文优化能缓解中间迷失问题RAG 场景性能提升

2

4%LLMLingua-2BERT 级别编码器速度快

倍摘要 vs LLMLingua维度摘要压缩LLMLingua压缩方式语义理解Token 剪枝压缩比

x最高 20x速度慢需调 LLM快小模型计算信息保留可能丢细节保留原始表述适用场景对话历史RAG 检索结果、长文档实际建议对话历史用摘要压缩RAG 检索结果用 LLMLingua已集成 LangChain、LlamaIndex两者可以组合使用要点速记LLMLingua 是 token 级剪枝不是语义压缩三模块Budget Controller Token Compression Alignment压缩比最高 20x性能损失仅

5%对话用摘要RAG 结果用 LLMLingua可组合Round 5如何避免 Context Poisoning面试官“听说过 Context Poisoning 吗你们怎么防止的”候选人“Context…Poisoning这是什么”正解Context Poisoning 是指错误信息进入上下文后被反复引用导致 Agent 持续犯错。

典型症状Agent 反复尝试已经失败过的方案输出越来越离谱却不自我纠正工具调用和用户指令对不上暂时修好了过几轮又出问题Gemini 玩宝可梦的案例Agent 幻觉了一个不存在的目标然后一直朝着这个目标行动完全偏离轨道。

Context Rot上下文腐烂相关概念即使没有错误信息上下文太长本身就会导致性能下降。

Chroma Research 的发现模型的有效上下文窗口远小于宣称的窗口大小大多数模型在 256k token 以内表现良好超过这个范围性能显著下降Stanford 研究上下文变长性能下降 15%-47%防护措施

验证工具输出工具返回结果先校验再写入上下文发现明显错误立即删除不让模型学坏

周期性清理用 LangGraph 的RemoveMessage删除特定消息或用REMOVE_ALL_MESSAGES清空重来

设置上下文护栏明确告诉模型不要重试已失败的方案超过 N 次循环强制终止

分阶段处理大任务拆成小任务每个小任务用独立会话只传递最终结果不传递中间过程

压缩优先级raw原文 compaction紧凑化 summarization摘要只有紧凑化不够用时才做摘要工程配置参考python# 触发阈值CONTEXT_ROT_THRESHOLD 128_000 # 128k tokens压缩策略if context_size CONTEXT_ROT_THRESHOLD:# 保留最近 3 轮原文recent_messages messages[-3:]# 最老的 20 轮做摘要old_messages messages[:-3][:20]summary summarize(old_messages)# 重组上下文new_context system_prompt summary recent_messages要点速记Context Poisoning错误信息进入上下文后被反复引用Context Rot上下文太长导致性能下降有效窗口 256k防护验证工具输出、周期清理、设置护栏、分阶段处理压缩优先级原文紧凑化摘要面试官点评这场面试暴露了一个很典型的问题很多人做 Agent 只关注怎么让它动起来不关注怎么让它稳定跑下去。

上下文管理是 Agent 工程化的核心问题之一。

没有好的上下文管理Agent 跑 10 轮可能没问题跑 50 轮就会开始发疯。

建议自己造一个长对话场景让 Agent 跑 100 轮观察它什么时候开始出问题读一下 MemGPT 的论文理解虚拟内存思想在 LLM 上的应用用 LangGraph 的 trim_messages 或 SummarizationNode实际跑一下感受不同压缩策略的效果差异上下文管理这个话题很多人觉得是工程细节不重要。

但 JetBrains 的研究说得很清楚上下文管理对 Agent 性能和成本的影响巨大却很少被当作核心研究问题对待。

能把 Agent 跑起来的人多能把 Agent 跑稳的人少。

这就是面试时最容易被问住的地方。

学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

VX站破解版免费下载：解锁无限可能，畅享数字自由！

核心内容摘要

美国十次：一次难以忘怀的美国之旅

倍混合方案JetBrains Research 的研究表明混合使用两种方案效果最好比纯 Observation Masking 成本低 7%比纯 LLM Summarization 成本低 11%成功率还提升了约

6%要点速记别直接截断会丢关键信息两种主流方案Observation Masking快但粗糙、LLM Summarization准但有成本混合方案保留最近 10 轮原文更早内容做摘要每

轮或每个子任务完成后调试任务阈值设高90%问答任务可以设低

%Tmax触发线和 Tretained保留量是两个核心参数Round 3压缩过度导致信息丢失怎么办面试官“我们实际项目里遇到一个问题——压缩后 Agent 老是忘记之前做过什么反复重复操作。

5%来源Microsoft ResearchLongLLMLingua针对长上下文优化能缓解中间迷失问题RAG 场景性能提升

4%LLMLingua-2BERT 级别编码器速度快

倍摘要 vs LLMLingua维度摘要压缩LLMLingua压缩方式语义理解Token 剪枝压缩比

验证工具输出工具返回结果先校验再写入上下文发现明显错误立即删除不让模型学坏

周期性清理用 LangGraph 的RemoveMessage删除特定消息或用REMOVE_ALL_MESSAGES清空重来

设置上下文护栏明确告诉模型不要重试已失败的方案超过 N 次循环强制终止

分阶段处理大任务拆成小任务每个小任务用独立会话只传递最终结果不传递中间过程

9·1网站在线-9·1网站在线应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

VX站破解版免费下载：解锁无限可能，畅享数字自由！

核心内容摘要

美国十次：一次难以忘怀的美国之旅

倍混合方案JetBrains Research 的研究表明混合使用两种方案效果最好比纯 Observation Masking 成本低 7%比纯 LLM Summarization 成本低 11%成功率还提升了约

6%要点速记别直接截断会丢关键信息两种主流方案Observation Masking快但粗糙、LLM Summarization准但有成本混合方案保留最近 10 轮原文 更早内容做摘要每

轮或每个子任务完成后调试任务阈值设高90%问答任务可以设低

%Tmax触发线和 Tretained保留量是两个核心参数Round 3压缩过度导致信息丢失怎么办面试官“我们实际项目里遇到一个问题——压缩后 Agent 老是忘记之前做过什么反复重复操作。

5%来源Microsoft ResearchLongLLMLingua针对长上下文优化能缓解中间迷失问题RAG 场景性能提升

4%LLMLingua-2BERT 级别编码器速度快

倍摘要 vs LLMLingua维度摘要压缩LLMLingua压缩方式语义理解Token 剪枝压缩比

验证工具输出工具返回结果先校验再写入上下文发现明显错误立即删除不让模型学坏

周期性清理用 LangGraph 的RemoveMessage删除特定消息或用REMOVE_ALL_MESSAGES清空重来

设置上下文护栏明确告诉模型不要重试已失败的方案超过 N 次循环强制终止

分阶段处理大任务拆成小任务每个小任务用独立会话只传递最终结果不传递中间过程

9·1网站在线-9·1网站在线应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

6%要点速记别直接截断会丢关键信息两种主流方案Observation Masking快但粗糙、LLM Summarization准但有成本混合方案保留最近 10 轮原文更早内容做摘要每

相关优化文章推荐