17c.5c:掌握起草的艺术——从灵感荒原到创作巅峰的进阶指南

核心内容摘要

不知火舞的诱惑:三个男人一台戏,火舞当家谁能挡?
洞见真章:泥鳅穿洞真人版,解锁你的潜能密码

跨越次元的情欲艺术:深度盘点那些绕不开的成人动漫热门经典

本文深度剖析RAG技术从狂热到冷静的演进历程指出RAG本质是上下文工程将转变为基础设施。

作者分析GraphRAG、AgenticRAG等前沿技术的实际效果强调简单有效往往优于复杂方案。

展望2026年智能体RAG、长上下文融合、垂直领域发展将成为趋势核心建议是面向业务做RAG反对为技术而技术的倾向强调朴素RAG优质数据精细产品设计在80%场景下的有效性。

2025年RAG:从狂热到冷静

1 数据会说话先看一组数据:但论文数量的爆发,并不等于技术的成熟。

事实上,2025年RAG领域呈现出一种成熟与分化并存的状态——基础设施趋于稳定,技术创新却开始放缓。

2 开源框架的大浪淘沙年初的时候,GitHub上RAG相关的开源项目有35个之多,到年末,真正活跃的不超过10个,而被广泛使用的只有

个。

这种收敛形成了一个有趣的三层金字塔:底层(面向开发者): LangChain、AutoGen、等底层框架,灵活但学习成本高中层(面向工程师): RAGFlow、MaxKB等,平衡了易用性和可定制性顶层(面向业务): Dify、Coze等低代码平台,上手快但容易遇到性能瓶颈我的观察是:大部分团队选择了Dify/Coze,但80%的团队会在3个月内遇到性能瓶颈。

为什么?因为RAG的优化高度依赖具体业务场景,而这些平台的抽象层限制了你深入优化的能力。

3 一个经典的问题:二开还是重写?这是我今年被问得最多的问题。

我的答案很简单:如果你只是做demo或简单场景,用开源框架。

如果你要做生产级系统,认真考虑从头开发核心模块。

原因有三:RAG本质上是模块化的- 文档解析、分块、检索、重排、生成,每个模块都可以独立优化业务差异巨大- 金融文档、法律合同、技术手册,每种场景的最优方案完全不同LLM代码能力飞跃- 2025年,Claude

4.

GPT-5等模型已经能生成很高质量的RAG代码,从头开发的成本大幅降低当然,这需要你对RAG的原理有深入理解。

但如果你打算长期做这个方向,这个投入是值得的。

技术演进:从暴力堆叠到理性回归

1 技术发展的三个阶段回顾RAG的发展,可以清晰地划分为三个阶段:第一阶段(2020-

:基础RAG时代最简单的检索生成流水线:向量检索Top-K文档,拼接后扔给LLM。

问题很明显:检索和生成完全解耦,检索到的内容不一定是LLM真正需要的。

第二阶段(2023-

:增强RAG时代各种tricks层出不穷:Query改写、HyDE、混合检索、重排序、迭代检索…这个阶段产生了LangChain、LlamaIndex等框架,降低了开发门槛。

第三阶段(2024-

:前沿探索期出现了四大方向:模块化RAG- 乐高式组装各种组件GraphRAG- 引入图结构建立实体关系AgenticRAG- 让LLM自主决策检索策略多模态RAG- 处理图像、视频等非文本数据

2 GraphRAG:高开低走的典型案例今年最热的概念之一就是GraphRAG。

微软发布后,各种论文、开源项目井喷。

但用下来发现,ROI真的不高。

为什么GraphRAG没火起来?Token消耗巨大- 实体抽取、关系建立、社区摘要,Token成本是普通RAG的

倍图谱质量堪忧- 自动抽取的实体关系充满噪声,远不如人工构建的知识图谱维护成本高- 文档一更新,图谱就要重建,这个成本在生产环境难以接受我的判断:GraphRAG适合那些需要跨文档、多跳推理的复杂场景,但对于80%的常规问答,朴素RAG好的文档解析就够了。

不过GraphRAG的思想是对的——预先建立关联,降低检索时的认知负担。

只是当前的实现方式太粗暴了。

3 AgenticRAG:理想很丰满,现实很骨感AgenticRAG的思路是:让LLM自己决策什么时候检索、检索什么、如何利用检索结果。

听起来很美好,但有两个大问题:Token成本- 每次决策都要调用LLM,成本是传统RAG的

倍稳定性- LLM的决策能力还不够可靠,经常做出错误判断我的建议:对于复杂任务,Agentic思路是对的,但可以用简化版——预定义几种检索策略,用轻量级分类器选择,而不是每次都让LLM深度思考。

4 长上下文会取代RAG吗?这是今年另一个热门争论。

Claude 3支持200K上下文,GPT-4 Turbo支持128K,很多人说RAG要死了。

我的答案:长上下文和RAG不是替代关系,而是互补。

长上下文的问题:成本- 处理100K上下文的成本是RAG的

倍Lost in the Middle- 信息太多,模型注意力会分散,答案质量反而下降实时性- 每次都处理全量文档,延迟不可接受最佳实践:文档1000页 深度理解场景 → 长上下文文档10000页 精准检索场景 → RAG混合场景 → RAG初筛 长上下文精读

从RAG到Context Engine:定位的转变

1 2025年最重要的认知升级如果说2025年RAG领域有什么最重要的认知升级,那就是:**RAG的本质不是检索增强生成,而是上下文工程**。

这个认知的转变,源于AI Agent的兴起。

2 Agent需要的三类上下文一个能干活的Agent,需要精心组装三类上下文:

领域知识(Knowledge)企业内部文档、产品手册、历史案例这就是传统RAG的强项

工具描述(Tools)API文档、函数说明、调用示例当工具数量100个,如何选择成为大问题

交互历史(Memory)对话历史、用户偏好、任务状态本质也是一种检索问题关键洞察:这三类数据的管理,本质上都是检索问题。

RAG的技术栈(向量索引、混合检索、重排序)可以完美复用。

3 MCP只是开始,真正的挑战是检索2024年底Anthropic推出MCP(Model Context Protocol),今年很多人在喊MCP凉了。

其实是搞错了对象。

MCP解决的是如何调用的连通性问题,但没有解决调用哪个的决策问题。

当企业有500个API可以调用时,你不可能把500个工具的描述都塞进prompt。

这时候你需要什么?工具检索(Tool Retrieval)[10]。

根据当前任务,动态检索最相关的

个工具,这才是实用的方案。

4 Memory就是特殊的RAG今年Memory也火了一把,很多人把它和RAG对立起来。

但本质上:Memory就是对会话历史的RAG。

上下文工程概念图数据来源不同- RAG处理静态文档,Memory处理动态对话技术栈相同- 都是存储、索引、检索目标互补- 一个提供领域知识,一个提供个性化上下文所以不要纠结用RAG还是Memory,统一到Context Engine的框架下思考。

5 Context Platform:下一个基础设施Theory Ventures的投资人早在2024年就提出了Context Platform的概念[13][14][15]。

核心思想:上下文的创建、管理、交付应该是一个平台化的能力,而不是每个应用各自实现。

这个判断我深度认同。

2026年,谁能把Context做成平台级产品,谁就占据了AI应用的核心基础设施。

多模态RAG:雷声大,雨点小

1 为什么多模态RAG还没起来?我在去年的

总结中预测多模态RAG会在2025年爆发,但现实是:雷声大,雨点小。

理论上,多模态RAG很有价值:医疗文献中的图表设计文档中的示意图视频中的关键帧工程上,有两大拦路虎:Token爆炸- 用ColPali处理一页PDF,生成1024个token,每个token 128维,一页就要500KB存储。

百万页文档库需要TB级索引。

检索效果- 纯文本向量检索已经很成熟,但图文混合检索的效果还不够稳定。

2 两条可行的路径要突破这个瓶颈,有两条路:路径1:量化压缩把float32降到int4甚至二值化,存储压缩32倍关键是要训练对量化鲁棒的embedding模型路径2:Token剪枝从1024个token降到128个用attention机制自动选择最重要的token

3 我的判断2026年多模态RAG会有突破,但真正大规模应用要到2027年。

原因:基础设施(向量数据库、检索引擎)对张量的支持还在完善专门为检索优化的多模态模型还在研发阶段成本需要继续降低但方向是对的,值得持续关注。

真实案例:企业怎么用RAG?

1 我看到的失败案例今年也看到不少失败案例,典型的有三类:类型1:过度追求新技术上来就要GraphRAG,结果成本控制不住建议:先把朴素RAG做到80分,再考虑升级类型2:数据质量差文档解析错误连篇,检索再准也没用建议:投入50%精力在数据清洗和解析上类型3:缺少产品设计把RAG当黑盒,没有做用户反馈闭环建议:像做产品一样做RAG,持续迭代

当前的五大挑战

1 成本:大多数团队的第一痛点现状:向量数据库存储成本高LLM调用成本高(特别是多轮对话)多模态更是成本杀手可行的优化:增量索引,不要每次全量重建冷热数据分层存储小模型做初筛,大模型做精排缓存高频query的结果

2 实时性:金融/安防场景的硬需求问题:检索生成通常需要

秒某些场景需要毫秒级响应解决方案:预检索缓存流式生成(先给部分答案)GPU加速向量检索HNSW等近似检索算法

3 语义鸿沟:多模态的老大难问题:用户问悲伤的场景,系统怎么从视频里找?文本和图像的语义对齐很难解决方案:用VLM(如GPT-4V)做细粒度理解离线时给视觉内容打丰富的标签收集反馈,持续优化匹配模型

4 幻觉:信任度的致命伤问题:即使检索到正确文档,LLM也可能胡说八道用户一旦发现错误,信任度归零解决方案:强制引用来源(带文档位置和页码)用小模型验证答案和文档的一致性训练时用检索文档做监督信号

5 隐私:企业的红线问题:敏感数据不能上云需要细粒度权限控制解决方案:本地化部署数据脱敏全程加密完整的审计日志

2026年:我看到的六大趋势

1 智能体RAG成为标配判断依据:LangChain已经all in Agentic复杂任务确实需要多步规划但要注意:不是所有场景都需要Agentic简单场景用规则轻量级LLM就够了

2 长上下文和RAG深度融合不是替代,而是协同:RAG做粗筛(从10万文档筛到10篇)长上下文做精读(深度理解这10篇)

3 垂直领域RAG涌现通用RAG的问题:无法处理领域特有的逻辑评估指标不适配具体场景垂直化的价值:医疗RAG:集成医学知识图谱,理解诊断逻辑法律RAG:内置法条检索和

案例分析金融RAG:实时接入市场数据**我的建议:**如果你的领域文档有明显特征(如法律条文的层级结构),不要用通用方案,定制开发ROI更高。

4 端到端训练进入工程实践现状:检索器和生成器分别训练,可能目标不一致RAG

0的思路:联合训练,直接优化最终答案质量检索器学习生成器喜欢什么样的文档2026年的突破点:更多开源的端到端训练框架小数据量下也能有效训练的方法

5 Context Platform成为基础设施我最看好的方向:不是某个RAG框架,而是统一的上下文管理平台就像数据仓库之于BI,Context Platform之于AI应用谁有机会:RAGFlow这类深耕底层引擎的云厂商(如AWS、阿里云)推的托管服务新兴的专注Context的创业公司

6 标准化和互操作性提升当前的痛点:向量数据库格式不兼容Embedding模型互相替换困难评估指标各说各话2026年的进展:OpenAI、Anthropic等大厂会推动标准更多benchmark的出现框架间的互操作性增强

给开发者的七条建议建议1:拥抱模块化不要把RAG当黑盒,理解每个模块的作用:Parser(文档解析)Chunker(分块策略)Retriever(检索器)Reranker(重排序)Generator(生成器)这样你才能针对性优化。

建议2:从简单开始反对一上来就上GraphRAG/AgenticRAG的冲动。

正确的路径:基础RAG(Faiss Llama

3.

加入重排序(BGE Reranker)优化chunking策略根据场景决定是否升级建议3:重视数据质量好的RAG 30%技术 70%数据时间分配建议:50%: 文档清洗和解析30%: 评估和调优20%: 技术选型和开发建议4:建立评估体系不只是demo能跑就行,要有系统的评估:检索层面:PrecisionK / RecallKMRR(Mean Reciprocal Rank)生成层面:答案准确性(人工评估)引用质量(是否引用了正确文档)幻觉率业务层面:响应时间用户满意度人工介入率建议5:做好监控和迭代RAG不是一次性工程,是持续迭代的系统。

必须的监控:每个query的检索结果生成答案的质量评分用户反馈(点赞/点踩)异常case(答非所问、拒答、幻觉)每周review一次bad case,找规律,针对性优化。

建议6:不要忽视产品设计技术只是手段,用户体验才是目的。

产品层面要考虑:什么情况下触发检索?如何展示来源文档?答案不确定时如何处理?如何收集用户反馈?我看到的最好的RAG产品,都在这些细节上下了功夫。

建议7:安全和合规前置不要等上线了再考虑安全问题。

设计阶段就要明确:哪些数据可以索引?如何做权限控制?如何审计访问记录?如何应对数据泄露?对于金融、医疗等强监管行业,这些是必答题。

我的核心观点:回归本质

1 技术无罪,用错了才是问题我经常听到RAG已死、GraphRAG不work这样的声音。

但问题不在技术本身,在于:用错了场景- 简单问答非要用GraphRAG数据质量差- 垃圾进垃圾出过度追求新技术- 基础没打好就想上天技术只是工具,关键是理解你的业务需求,选择合适的工具。

2 不要面向RAG做业务这是我想强调的最重要的一点:不要面向RAG做业务,而是面向业务做RAG。

什么意思?❌ 错误:我们有RAG技术,能做什么业务?✅ 正确:我们要解决XX问题,RAG是不是最优解?很多失败的案例,就是为了用RAG而用RAG。

结果发现:简单的FAQ,规则系统就够了复杂的分析任务,RAG解决不了核心问题

3 论文和落地是两回事今年看了大量RAG论文,很多都很fancy。

但:论文的意义是探索边界,不是给你直接落地的。

论文的价值:告诉你某个方向是否可行提供一种解决问题的思路帮助你理解技术的上限但论文通常:只在特定数据集上有效忽略了工程成本没有考虑实际约束所以看论文要学思路,不要照搬代码。

4 简单往往更有效这是我今年最深的感悟:在80%的场景下,朴素RAG 好的数据 精细的产品设计,比复杂的技术方案更有效。

为什么?简单系统更稳定- 环节少,出错的地方就少简单系统更好调试- 出了问题容易定位简单系统成本更低- 开发快,维护容易GraphRAG、AgenticRAG这些,只在你确实遇到瓶颈时才考虑。

2026:干中学,在业务中成长

1

1 大势已定:RAG是基础设施虽然争议不断,但我的判断很明确:RAG不会死,而是会从应用变成基础设施。

就像数据库之于应用开发,RAG(或者说Context Engine)会成为所有AI应用的标配。

理由:长上下文不是银弹- 成本和效果都有天花板私有数据必须管理- 企业不可能把所有数据都扔给LLM动态性是刚需- 文档会更新,知识会变化

1

2 机会在垂直领域通用RAG框架的时代接近尾声,垂直领域RAG的机会才刚开始。

为什么?通用方案的问题- 无法处理领域特性垂直方案的价值- 内置领域知识,开箱即用商业模式更清晰- 可以收更高的价格如果你在某个领域有深厚积累,做垂直RAG是很好的切入点。

1

3 长期主义:持续迭代才是王道RAG不是一锤子买卖,而是需要长期运营的系统。

成功的RAG团队都在做什么?持续优化数据- 新文档的接入,旧文档的更新监控和迭代- 每周review bad case,针对性优化收集反馈- 让用户参与,形成闭环技术升级- 新技术出来就试试,有收益就上这是一个马拉松,不是百米冲刺。

写在最后:给2026的自己回看这一年,RAG经历了从狂热到冷静,技术本身在成熟,但大家的心态也在变化。

明年这个时候再回看,我相信:基础框架会更加稳定- 淘汰期已过,剩下的都是精品垂直应用会涌现- 通用方案做到极致后,差异化在细分领域Context Engine会成为共识- 不再只谈RAG,而是整个上下文管理工程化会被重视- 不只是炫技,而是真正能稳定运行的系统对于我自己:继续深耕业务,在实际场景中打磨技术。

不追热点,做长期有价值的事情。

如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。

但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。

这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。

我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。

那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。

正确的学习路线可以为你节省时间少走弯路方向不对努力白费。

这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。

在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。

以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有

年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。

风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。

本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

以上全套大模型资料如何领取

www 裸玉足.com91牛www…91ncom-www 裸玉足.com91牛应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123