首页速度优化穿越时光的暖色：探寻“黄色仓库”的秘密花园

网站优化

法国航空2019：一次穿越时空的空中邀约

开启智慧新篇章：w17.c与w17的次元对话

2026-06-08 18:22:16

阅读时长:2分钟

562次阅读

核心内容摘要

深夜絮语：当“困困”成为最温柔的信号

RAG是一种无需微调即可扩充大模型知识的方法通过检索外部文档增强回答准确性。

文章详细讲解了RAG的构建流程文档加载、分块、向量化存储和检索生成过程并深入探讨了文档分块策略、相似度计算算法、重排序技术及Graph RAG等进阶优化方法。

最后分析了RAG系统的评估指标和常见缺点及解决方案为构建高效可靠的RAG系统提供了全面指导。

RAG 介绍RAG(Retrieval Augmented Generation) 是一种无需微调即可扩充模型知识的常用方法。

借助 RAGLLM可以从数据库中检索上下文文档以提高答案的准确性。

因为 LLM 大模型通过海量数据进行训练数据是有时效性的。

如果询问最新的文档或者一些专业领域的知识LLM 是无法回答的。

所以检索增强生成(RAG) 通过将你的数据添加到 LLM 已有的数据中来解决此问题。

RAG 解决了纯生成模型的局限性如幻觉、知识过时等通过动态检索外部知识增强生成结果的可信度和时效性。

RAG 流程典型的 RAG 流程分为两个部分构建向量存储创建向量存储是构建检索增强生成 (RAG) 流程的第一步。

文档会被加载Load、拆分Split、Embedding 存储到向量数据库中。

加载文档 Load加载各种非结构化的数据例如TXT 文本、PDF、JSONHTML、Markdown 等。

Langchain 封装了各种格式的DocumentLoaders文档加载器。

切分文本 Split将文本切分成更小的文本块Chunk。

转化向量 Embedding使用 Embedding 模型将文本转换为向量浮点数数组表示向量数据库 VectorStore 存储 Embedding 向量能够基于向量相似度高效地检索与查询“最相似”的数据。

检索生成根据用户输入用向量数据库进行相似性搜索让后把用户的question和搜索到的context作为上下文喂给 LLM 大模型LLM 分析推理回答用户的问题。

我使用LangGraph构建了基本的 RAG 流程调用 Retrieval Tool 搜索相关文档然后GradeDocument对文档进行评分对从向量数据库检索到的文档进行评分如果检索到的文档与用户输入的内容相关则 GenerateAnswer 生成答案返回如果不相关则 Rewrite 重新生成 query 进行检索。

代码已上传 Githubhttps://github.com/Liu-Shihao/ai-agent-demo/tree/main/src/rag_agent进阶 - RAG 优化文档 Chunking大模型对话的 token 数量是有限制的文档切分是为了将文档切分为小的文本块适合检索并且节省 token。

切分的文本块长度也会影响 LLM 回答的质量。

常见的切分文档的方法固定长度切分重叠分块边界按照字符或者 Token 数如 512 个 token切分。

重叠分块以避免边界信息丢失。

这种方式最简单但是有可能会截断语义。

按照句子边界标点符号分块例如使用 NLP 框架SpaCy, 但是长段落可能语义断裂。

自定义规则分割用正则表达式或者 DOM 解析器如 BeautifulSoup按照逻辑结构标题段落分块。

适合结构化文档但是需要手动设计分割规则。

基于语义的分块用 Transformer 模型分析语义关系分块。

优化原则chunk 块大小需要匹配 embedding 模型和 llm 大模型的 tokne 限制。

关键信息实体关系尽量保留在同一块中。

相似性算法在 RAG检索增强生成和其他信息检索任务中相似性算法用于衡量文本、向量或实体之间的关联程度。

欧氏距离L2 欧几里得距离测量连接两点的线段的长度计算向量间的直线距离。

它是最常用的距离度量当数据连续时非常有用。

值越小相似度越高。

余弦相似度COSINE 余弦相似度使用两组向量之间夹角的余弦来衡量它们的相似程度。

余弦相似度始终在区间[-1, 1]内。

余弦值越大两个向量之间的夹角越小表明这两个向量彼此越相似。

适合文本 embedding 比较。

BM25(Best Matching

BM25 基于词频TF和逆文档频率IDF)。

根据词频、倒排文档频率、文档规范化对相关性进行评分。

用于评估文档与查询的相关性。

广泛应用于搜索引擎和问答系统。

如 Elasticsearch 默认使用 BM25 排序。

词频TF衡量查询词在文档中的出现频率但通过参数k1控制词频的饱和效应避免高频词过度影响得分。

逆文档频率IDF惩罚常见词如“的”“是”提升罕见词的权重。

反映某个术语在整个语料库中的重要性。

出现在较少文档中的术语的 IDF 值较高表明其对相关性的贡献较大。

文档长度归一化较长的文档由于包含更多术语往往得分更高。

BM25 通过归一化文档长度来缓解这种偏差。

通过参数调整长文档的得分避免因文档长度导致的词频偏差。

Jaccard相似度Jaccard Index: 比较集合的交集与并集比例。

适用场景关键词集合、推荐系统如用户兴趣匹配。

范围[0,1]值越小相似度越高。

RAG 中的典型应用初步检索余弦相似度快速筛选候选文档。

重排序交叉编码器精细排序 Top-K 结果。

去重Jaccard 相似度合并重复片段。

通过灵活组合这些算法可以优化 RAG 系统的召回率、准确率和响应速度。

余弦相似度COSINE的缺点忽视向量长度信息余弦相似度仅计算向量方向的夹角忽略向量的长度模。

这意味着高频词干扰TF-IDF或词频高的长文本可能主导方向但实际语义不相关。

会放大无关词的影响。

归一化依赖未归一化的向量可能导致相似度计算偏差。

长文本包含更多词汇其向量各维度值累加后长度模显著大于短文本。

语义相似度 ≠ 相关性余弦相似度基于表面语义匹配。

表面匹配但相关文档不一定语义相似如果两个文本共享许多相同的关键词如“猫”“狗”“宠物”即使逻辑不同余弦相似度仍可能很高。

例如文档1“猫和狗是常见的宠物。

”正向描述文档2“猫和狗不适合作为宠物。

”负向观点余弦相似度高但语义相反。

词序颠倒但余弦相似度相同。

示例句子A“医生治疗病人。

”句子B“病人治疗医生。

”解决方案向量归一化强制所有向量的单位长度如L2归一化。

结合其他指标如点积相似度考虑长度或BM25词频加权。

重排序Re-rank用交叉编码器如MiniLM精细化排序。

混合检索结合关键词匹配BM25或知识图谱关系。

Rerank 重排序重排序Reranking是对初步检索结果进行优化排序的技术旨在提升结果的相关性和准确性。

初次检索如余弦相似度可能返回语义相关但冗余或低质量片段重排序可结合更多特征优化顺序。

方法交叉编码器Cross-Encoder如 MiniLM-L6-v2计算查询与每个文档的相关性分数比嵌入模型更准但更慢。

学习排序Learning to Rank训练模型综合多特征如关键词匹配、点击率排序。

规则调整去除重复内容、优先新鲜度高的文档。

Graph RAG使用知识图谱Knowledge Graph, KG增强 RAG检索增强生成可以显著提升复杂推理、多跳问答和关系挖掘的能力。

通过将文档中的实体Entities和关系Relations提取为知识图谱在检索阶段不仅返回文本片段还返回相关的子图结构从而增强生成模型的上下文理解能力。

与传统 RAG 的区别特性传统 RAGGraphRAG检索单元文本片段Chunks实体关系子图推理能力单跳语义匹配多跳推理如 A→B→C适用场景简单问答复杂关系查询实现步骤实体识别NER使用 SpaCy NLP 模型或者 LLM 大模型进行命名实体提取从文本中识别提取人名地名组织名地点日期等实体。

关系抽取可以利用 LLM 大模型抽取三元组(〈主体 (Subject), 关系 (Predicate), 客体 (Object)〉)。

图谱存储将节点 Node 和关系 Relations 存储到图数据库中如 Neo4j。

三元组Triple是知识图谱Knowledge Graph中的基本数据单元用于表示实体Entity之间的关系Relation其结构为〈主体 (Subject), 关系 (Predicate), 客体 (Object)〉通过知识图谱的引入RAG 系统能够从“平面检索”升级为“立体推理”尤其适合需要深挖实体关系的复杂场景。

RAG Evaluate 评估对RAG的评估可以从以下两个部分进行检索质量上下文准确率Context Precision是衡量上下文中相关词块比例的指标。

准确率是排名为 k 的相关词块数量与排名为 k 的词块总数之比。

上下文召回率Context Recall前K个结果中相关文档的比例。

衡量成功检索到的相关文档或信息片段数量。

更高的召回率意味着遗漏的相关文档更少。

生成质量答案相关度 Response Relevancy生成答案与问题的契合度。

衡量答案与用户输入的相关性。

分数越高表示与用户输入的匹配度越高如果生成答案不完整或包含冗余信息则分数越低。

忠诚度 Faithfulness衡量的是答案与检索内容的事实一致性。

答案是否严格基于检索内容减少幻觉。

RAG 有哪些缺点检索的质量依赖外部数据库如果知识库不完整过时或者噪声多检索到的内容可能不相关或者错误导致生成的答案质量下降。

解决方案定期更新知识库实时爬取权威数据源分块Chunking导致上下文碎片化固定大小的分块可能截断关键信息。

答案可能分散在多个 chunk 块中。

解决方案动态分块按照语义边界切分如段落章节·语义相关不等于答案相关向量检索如余弦相似度可能返回语义相关但无实际答案的文档。

如查询“如何治疗感冒”可能检索到“感冒症状描述”而非治疗方案。

解决方案引入重排序Re-rank模型如交叉编码器混合检索结合关键词检索如 BM25。

生成模型忽视检索内容生成模型可能忽略检索到的文档仍依赖自身知识幻觉。

解决方案强化提示工程如“严格基于以下上下文回答”。

无法处理多跳推理传统 RAG 难以回答需要多步推理的问题如“A 公司的竞争对手的 CEO 是谁”。

解决方案引入知识图谱GraphRAG显式建模实体关系。

RAG 流程时间长检索生成两阶段流程导致响应时间较长尤其涉及重排序时。

解决方案缓存高频查询结果。

缺点类别具体问题解决方案检索质量知识库不完整/碎片化动态更新知识库、语义分块、重排序生成偏差忽视检索内容/幻觉提示工程、模型微调效率问题高延迟/高计算成本缓存、量化、分层检索知识覆盖领域盲区/偏见多源数据融合、去偏处理复杂推理多跳推理困难GraphRAG、迭代检索如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。

但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。

这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。

我在一线互联网企业工作十余年里指导过不少同行后辈。

帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。

2023年人才缺口已超百万凸显培养不足。

随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。

加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

大模型入门到实战全套学习大礼包

大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。

正确的学习路线可以为你节省时间少走弯路方向不对努力白费。

这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通

大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。

大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。

在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。

适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。

大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-

5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。

快速开发一个完整的基于 agent 对话机器人。

掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。

为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。

到此为止大概2个月的时间。

你已经成为了一名“AI小子”。

那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。

硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。

天道酬勤你越努力就会成为越优秀的自己。

如果你能在15天内完成所有的任务那你堪称天才。

然而如果你能完成

% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

法国航空2019：一次穿越时空的空中邀约

核心内容摘要

深夜絮语：当“困困”成为最温柔的信号

检索生成根据用户输入用向量数据库进行相似性搜索让后把用户的question和搜索到的context作为上下文喂给 LLM 大模型LLM 分析推理回答用户的问题。

BM25 基于词频TF和逆文档频率IDF)。

大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。

大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。

大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。

5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。

% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。

榴莲视-榴莲视应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

法国航空2019：一次穿越时空的空中邀约

核心内容摘要

深夜絮语：当“困困”成为最温柔的信号

检索生成根据用户输入用向量数据库进行相似性搜索让后把用户的question和搜索到的context作为上下文喂给 LLM 大模型LLM 分析推理回答用户的问题。

BM25 基于词频TF和逆文档频率IDF)。

大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。

大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。

大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。

5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。

% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。

榴莲视-榴莲视应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐