SpringBoot+Vue 大学生就业需求分析系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

核心内容摘要

基于java的城市交通管理系统(11866)
Python全栈入门到实战【基础篇 19】函数进阶:默认参数、递归函数与偏函数应用

三元组描述和Ontology的关系

高阶RAG技巧探索提升RAG系统性能的不同技巧RAG 为 LLM 提供来自外部知识源的信息以帮助减少幻觉并提高生成响应的事实准确性。

一个简单的 RAG 流水线由四个组件组成嵌入模型、向量数据库、提示模板和 LLM。

在推理时它会嵌入用户查询以从向量数据库中检索相关文档信息块并将其填充到 LLM 的提示中以生成答案。

虽然这种简单的方法很简单但它有很多局限性而且往往会导致低质量的响应。

本文讨论了我们可以应用的各种高级技术来提高 RAG 系统的性能。

这些技术可以应用于 RAG 流水线的各个阶段如下所示索引优化索引优化技术通过以更有条理、更易于搜索的方式构建外部数据来提高检索准确性。

这些技术可以应用于 RAG 流水线中的数据预处理和分块阶段确保有效检索相关信息。

数据预处理Data Pre-Processing数据预处理是任何 RAG 系统成功的基础因为处理后数据的质量直接影响整体性能。

通过精心将原始数据转换为适合 LLM 的结构化格式我们可以在考虑更复杂的优化之前显著提高系统的效率。

虽然有几种常见的预处理技术可用但最佳方法和顺序应根据我们的特定用例和要求进行量身定制。

该过程通常从数据采集和集成开始也就是从多个来源收集各种文档类型并将其整合到“知识库”中。

数据提取和解析Data Extraction Parsing在原始数据上进行数据提取和解析以便为下游任务准确处理数据。

对于 Markdown、Word 文档和纯文本等基于文本的格式提取技术侧重于在捕获相关内容的同时保留结构。

包含基于图像的文本/表格的扫描文档、图像和 PDF 需要 OCROptical Character Recognition光学字符识别技术才能转换为 LLM 可用的格式。

然而多模态检索模型如 ColPali 和 ColQwen的最新进展彻底改变了这一过程。

这些模型可以直接嵌入文档图像可能会使传统的 OCR 过时。

Web 内容通常涉及 HTML 解析利用 DOM 遍历来提取结构化数据而电子表格则需要专门的解析来处理单元格关系。

元数据提取在文件类型中也至关重要它会提取作者、时间戳和其他文档属性等关键详细信息后面的元数据过滤部分会详细说一下。

数据清洗和降噪Data Cleaning Noise Reduction数据清洗和降噪包括删除不相关的信息例如页眉、页脚或样板文本、纠正不一致之处以及处理缺失值同时保持提取数据的结构完整性。

数据转换Data Transformation无论原始文件类型如何这一步将所有提取和处理的内容转换为标准化架构。

正是在此阶段发生文档分区不要与分块混淆将文档内容分成逻辑单元或元素例如段落、部分、表格。

分块技巧Chunking Strategies分块将大型文档划分为较小的、语义上有意义的片段。

此过程通过平衡上下文保留和可管理的块大小来优化检索。

RAG 中存在各种有效分块的常用技术下面将讨论其中一些技术固定大小分块Fixed-size chunking是一种简单的技术无论内容结构如何它都会将文本拆分成预定大小的块。

虽然这种方法成本低廉但缺乏上下文感知能力。

可以使用重叠块来改进这一点让相邻的块共享一些内容。

递归分块Recursive chunking提供了更大的灵活性它首先使用主分隔符如段落拆分文本然后如果分块仍然太大则应用次要分隔符如句子。

此技术尊重文档的结构并能很好地适应各种用例。

基于文档Document-based chunking的分块根据文档中的自然划分例如标题或章节创建分块。

它对于 HTML、Markdown 或代码文件等结构化数据特别有效但当数据缺乏明确的结构元素时用处不大。

语义分块Semantic chunking将文本划分为有意义的单元然后将其矢量化。

然后根据嵌入之间的余弦距离将这些单元组合成块每当检测到显著的上下文变化时就会形成一个新的块。

这种方法平衡了语义连贯性和块大小。

基于 LLM 的分块LLM-based chunking是一种先进的技术它使用 LLM 通过处理文本并创建语义上独立的句子或命题来生成块。

虽然它非常准确但它也是计算要求最高的一种方法。

上述每种技术都有其优势具体选择取决于 RAG 系统的具体要求和所处理文档的性质。

新方法不断涌现例如后期分块late chunking它先通过长上下文嵌入模型处理文本然后再将其拆分为块以更好地保留文档范围内的上下文。

预检索优化索引优化技术通过以更有条理、更易于搜索的方式构建外部数据来提高检索准确性。

这些技术可应用于 RAG 流水线中的数据预处理和分块阶段确保有效检索相关信息。

查询转换Query Transformation直接使用用户查询作为搜索查询进行检索会导致搜索结果不佳。

这就是为什么将原始用户查询转换为优化的搜索查询至关重要。

查询转换可以细化和扩展不清楚、复杂或模棱两可的用户查询以提高搜索结果的质量。

查询重写Query Rewriting涉及重新制定原始用户查询使其更适合检索。

这在用户查询措辞不当或表达方式不同的情况下特别有用。

这可以通过使用 LLM 重新措辞原始用户查询或采用专门为此任务训练的专门的小型语言模型来实现。

这种方法称为“重写-检索-阅读”Rewrite-Retrieve-Read而不是传统的“检索后阅读”Retrieve-then-Read范式。

查询扩展Query Expansion侧重于扩大原始查询的范围以捕获更多相关信息。

这涉及使用 LLM 根据用户的初始输入生成多个类似查询。

然后这些扩展的查询将用于检索过程从而增加检索到的文档的数量和相关性。

注意由于检索到的文档数量增加通常需要执行重新排序步骤以优先考虑最相关的结果会在后面的重新排序部分介绍。

查询分解Query Decomposition查询分解是一种将复杂查询分解为更简单的子查询的技术。

这对于回答需要多种信息源的多方面问题非常有用从而获得更精确、更相关的搜索结果。

该过程通常涉及两个主要阶段使用 LLM 将原始查询分解为更小、更集中的子查询然后处理这些子查询以检索相关信息。

例如复杂查询“为什么我吃得健康但总是这么累我应该改变饮食习惯还是尝试一些饮食趋势”可以分解为以下三个更简单的子查询哪些常见的饮食因素会导致疲劳哪些流行的饮食趋势及其对能量水平的影响如何确定我的饮食是否均衡并支持我的能量需求每个子查询都针对特定方面使检索器能够找到相关文档或块。

子查询也可以并行处理以提高效率。

关键词提取和元数据过滤器提取等附加技术可以帮助识别关键搜索词和结构化过滤条件从而实现更精确的搜索。

检索后系统会汇总和综合所有子查询的结果以生成对原始复杂查询的全面答案。

查询路由Query Routing查询路由是一种根据查询的内容和意图将查询定向到特定流水线的技术使 RAG 系统能够有效地处理各种场景。

它通过分析每个查询并选择最佳检索方法或处理流水线来提供准确的响应。

这通常需要实施多索引策略将不同类型的信息组织成单独的、经过优化的专门索引。

该过程可以包括 Agentic 元素其中 AI Agent 决定如何处理每个查询。

这些 Agent 评估查询复杂性和领域等因素以确定最佳方法。

例如基于事实的问题可能会被路由到一个流水线而需要

总结或解释的问题则会被发送到另一个流水线。

Agentic RAG 的功能类似于一个专门 Agent 网络每个 Agent 都具有不同的专业知识。

它可以从各种数据存储、检索策略基于关键字、语义或混合、查询转换针对结构不良的查询和专门工具或 API例如文本到 SQL 转换器甚至 Web 搜索功能中进行选择。

检索优化检索优化策略旨在通过直接操纵与用户查询相关的外部数据检索方式来改善检索结果。

这可能涉及优化搜索查询例如使用元数据筛选候选或排除异常值甚至涉及微调外部数据的嵌入模型以提高底层嵌入本身的质量。

元数据过滤Metadata Filtering元数据是附加在向量数据库中每个文档或块上的附加信息可提供有价值的上下文以增强检索。

这些补充数据可以包括时间戳、类别、作者信息、来源参考、语言、文件类型等。

从向量数据库检索内容时元数据有助于通过过滤掉不相关的对象即使它们在语义上与查询相似来优化结果。

这缩小了搜索范围并提高了检索信息的相关性。

使用元数据的另一个好处是时间意识。

通过将时间戳合并为元数据系统可以优先处理最近的信息确保检索到的知识保持最新和相关。

这在信息新鲜度至关重要的领域尤其有用。

为了充分利用元数据过滤重要的是要仔细规划并选择能够改善搜索而不会增加不必要复杂性的元数据。

排除向量搜索异常值Excluding Vector Search Outliers定义返回结果数量的最直接方法是明确设置前 k 个 (top_k) 结果的值。

如果将 top_k 设置为 5我们将获得五个最接近的向量无论它们的相关性如何。

虽然很容易实现但这可能会包括较差的匹配因为它们被截断了。

以下是两种隐式管理搜索结果数量的技术它们可以帮助排除异常值距离阈值Distance thresholding通过设置向量之间的最大允许距离来添加质量检查。

距离分数高于此阈值的任何结果都会被过滤掉即使它本来可以达到 top_k 截止值。

这有助于消除明显的不良匹配但需要仔细调整阈值。

Autocut 更具动态性它查看结果距离的聚类方式。

它不使用固定限制而是根据结果与查询向量的相对距离对结果进行分组。

当组间距离分数出现大幅跳跃时Autocut 可以在该跳跃处截断结果。

这会捕获可能通过 top_k 或基本距离阈值的异常值。

混合搜索Hybrid Search混合搜索结合了基于向量的语义搜索和传统的基于关键字的方法的优势。

该技术旨在提高 RAG 系统中检索信息的相关性和准确性。

混合搜索的关键在于“alpha”a参数它控制着语义和基于关键字的搜索方法之间的平衡a 1纯语义搜索a 0纯基于关键字的搜索0 a 1两种方法的加权组合当我们同时需要上下文理解和精确关键字匹配时这种方法特别有用。

考虑一家软件公司的技术支持知识库。

用户可能会提交“更新后 Excel 公式计算不正确”之类的查询。

在这种情况下语义搜索有助于了解问题的上下文可能会检索有关公式错误、计算问题或软件更新影响的文章。

同时关键字搜索可确保不会忽略包含“Excel”和“公式”等特定术语的文档。

因此在实施混合搜索时根据我们的特定用例调整 alpha 参数以优化性能至关重要。

嵌入模型微调Embedding Model Fine-Tuning现成的嵌入模型通常在大型通用数据集上进行训练以嵌入广泛的数据输入。

但是嵌入模型可能无法捕获较小、特定于领域的数据集的上下文和细微差别。

在自定义数据集上微调嵌入模型可以显著提高嵌入的质量从而提高 RAG 等下游任务的性能。

微调可以改进嵌入以更好地捕获数据集的含义和上下文从而在 RAG 应用程序中实现更准确、更相关的检索。

我们的数据集越小众它就越能从嵌入模型微调中受益。

具有专业词汇的数据集如医学或法律数据集是嵌入模型微调的理想选择这有助于扩展领域外的词汇并提高 RAG 流水线中信息检索和生成的准确性和相关性。

要微调现有的嵌入模型我们首先需要选择一个想要改进的基础模型。

接下来通过向模型提供特定于域的数据来开始微调过程。

在此过程中损失函数会调整模型的嵌入以便语义相似的项目在嵌入空间中放置得更近。

要评估微调后的嵌入模型我们可以使用一组精选的查询-答案对验证集来评估 RAG 流水线中的检索质量。

现在该模型已准备好为我们的特定数据集生成更准确、更具代表性的嵌入。

后检索优化检索后优化技术旨在提高生成的响应的质量这意味着它们的工作在检索过程完成后开始。

这组多样化的技术包括使用模型对检索结果进行重新排序、增强或压缩检索到的上下文、提示工程以及在外部数据上微调生成 LLM。

重新排序Re-Ranking一种行之有效的提高信息检索系统性能的方法是利用检索和重新排序流水线。

检索和重新排序流水线将向量搜索的速度与重新排序模型的上下文丰富性相结合。

在向量搜索中查询和文档是分开处理的。

首先对文档进行预索引。

然后在查询时处理查询并检索向量空间中最接近的文档。

虽然向量搜索是一种快速检索候选的方法但它可能会错过上下文细微差别。

这就是重新排序模型发挥作用的地方。

由于重新排序模型在查询时会同时处理查询和文档因此它们可以捕获更多上下文细微差别。

但是它们通常很复杂且资源密集因此不适合像向量搜索这样的第一阶段检索。

通过将向量搜索与重新排序模型相结合我们可以快速地收集大量潜在候选者然后对它们进行重新排序以提高提示中相关上下文的质量。

请注意在使用重新排序模型时我们应该过度检索块以便稍后过滤掉不太相关的块。

上下文后处理Context Post-Processing检索后对检索到的上下文进行后处理以便生成会大有裨益。

例如如果检索到的上下文可能受益于附加信息则可以使用元数据对其进行增强。

另一方面如果它包含冗余数据则可以对其进行压缩。

使用元数据进行上下文增强Context Enhancement with Metadata一种后处理技术是使用元数据通过附加信息增强检索到的上下文以提高生成准确性。

虽然我们可以简单地从元数据中添加附加信息例如时间戳、文档名称等但我们也可以应用更具创意的技术。

当数据需要预处理成较小的块大小以实现更好的检索精度但其不包含足够的上下文信息来生成高质量的响应时上下文增强特别有用。

在这种情况下我们可以应用一种称为“句子窗口检索”Sentence window retrieval的技术。

此技术将初始文档分块成较小的部分通常是单个句子但在其元数据中存储较大的上下文窗口。

在检索时较小的块有助于提高检索精度。

检索后检索到的较小块将被较大的上下文窗口替换以提高生成质量。

上下文压缩Context CompressionRAG 系统依赖各种知识源来检索相关信息。

然而这通常会导致检索不相关或冗余的数据从而导致响应不理想和 LLM 调用成本高昂更多 token。

上下文压缩通过从检索到的数据中提取最有意义的信息有效地解决了这一挑战。

此过程从基本检索器开始该检索器检索与查询相关的文档/块。

然后这些文档/块通过文档压缩器进行压缩以缩短它们并消除不相关的内容确保有价值的数据不会丢失在大量无关信息中。

上下文压缩减少了数据量降低了检索和运营成本。

当前的研究主要集中在两种方法上基于嵌入和基于词汇的压缩这两种方法都旨在保留基本信息同时减轻 RAG 系统的计算需求。

提示工程Prompt EngineeringLLM 的生成输出受其相应提示的质量、语气、长度和结构的影响很大。

提示工程是优化 LLM 提示以提高生成输出的质量和准确性的实践。

提示工程通常是改进 RAG 系统的技术中最容易实现的成果之一它不需要对底层 LLM 本身进行更改。

这使得它成为一种高效且易于访问的方法来提高性能而无需进行复杂的修改。

有几种不同的提示技术在改进 RAG 流水线方面特别有用。

CoT (Chain of Thought思维链) 提示涉及要求模型“逐步思考”并将复杂的推理任务分解为一系列中间步骤。

当检索到的文档包含需要仔细分析的冲突或密集信息时这尤其有用。

ToT (Tree of Thoughts思维树) 提示以 CoT 为基础指示模型评估其在解决问题过程中每一步的响应甚至生成问题的几种不同解决方案并选择最佳结果。

当存在许多潜在证据时这在 RAG 中很有用并且模型需要根据多个检索到的文档权衡不同的可能答案。

ReActReasoning and Acting推理和行动提示将 CoT 与 Agent 相结合创建了一个系统其中模型可以生成想法并将行动委托给 AgentAgent 在迭代过程中与外部数据源交互。

ReAct 可以通过使 LLM 能够动态地与检索到的文档交互、根据外部知识更新推理和行动来改进 RAG 流水线从而提供更准确、更符合上下文的响应。

LLM 微调LLM Fine-Tuning预训练的 LLM 在大型、多样化的数据集上进行训练以获得一般知识包括语言和语法模式、广泛的词汇量以及执行一般任务的能力。

对于 RAG使用预训练的 LLM 有时会导致生成的输出过于笼统、事实不正确或无法直接解决检索到的上下文。

微调预训练模型涉及在特定数据集或任务上对其进行进一步训练以使模型的一般知识适应该特定领域的细微差别从而提高其在该领域的性能。

在 RAG 流水线中使用微调模型有助于提高生成的响应的质量尤其是当手头的主题高度专业化时。

高质量的领域特定数据对于微调 LLM 至关重要。

标记数据集如正面和负面的客户评论可以帮助微调模型更好地执行下游任务如文本分类或情绪分析。

另一方面未标记的数据集如 PubMed 上发布的最新文章可以帮助微调模型获得更多领域特定知识并扩大词汇量。

在微调过程中预训练的 LLM也称为基础模型的模型权重通过称为反向传播的过程进行迭代更新以从领域特定数据集中学习。

结果是经过微调的 LLM 可以更好地捕捉新数据的细微差别和要求例如特定术语、风格或语气。

总结RAG 通过使生成模型能够引用外部数据来增强生成模型从而提高响应准确性和相关性同时减轻幻觉和信息差距。

简单的 RAG 根据查询相似性检索文档并直接将它们输入生成模型以生成响应。

但是更先进的技术如本指南中详细介绍的技术可以通过增强检索信息的相关性和准确性来显著提高 RAG 流水线的质量。

本文回顾了可应用于 RAG 流水线各个阶段的高级 RAG 技术以提高检索质量和生成响应的准确性。

索引优化技术如数据预处理和分块专注于格式化外部数据以提高其效率和可搜索性。

预检索技术旨在通过重写、重新格式化或将查询路由到专用流水线来优化用户查询本身。

检索优化策略通常侧重于在检索阶段优化搜索结果。

检索后优化策略旨在通过各种技术提高生成结果的准确性包括对检索结果进行重新排序、增强或压缩检索上下文以及操纵提示或生成模型 (LLM)。

我建议实施验证流水线以确定 RAG 系统的哪些部分需要优化并评估高级技术的有效性。

评估我们的 RAG 流水线可以实现持续监控和改进确保优化对检索质量和模型性能产生积极影响。

想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2026 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容​

学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI

100本大模型方向电子书

26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC

实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

600套技术大会 PPT听行业大咖讲实战PPT 整理自

年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌

107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自

年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析

102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑

97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”

路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。

L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、

关键技术以及大模型应用场景。

L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。

L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。

L5阶段专题集丨特训篇 【录播课】

资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容​2026 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”

https://17c.com-https://17c.com最新版v.18.38.51-2265安卓网应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123