核心内容摘要
Ostrakon-VL-8B入门:Python环境安装与模型快速调用教程
RAG 工作流程检索增强生成RAG系统代表了大型语言模型LLM应用架构的重大演进它将 LLM 的强大生成能力与外部知识库的实时性、准确性相结合形成了一个高效、可靠的知识闭环。
理解 RAG 系统的完整工作流程是构建和优化任何 RAG 应用的基础。
这个流程并非简单的组件堆砌而是一个精心设计、环环相扣的信息处理管道主要由查询解析、文档检索、信息整合与回答生成四个阶段构成。
许多开发者在 RAG 实践中往往止步于向量数据库 Prompt的简单组合却在面对文档切片策略、重排序 Rerank 引入、以及生产环境的部署调优等深水区问题时感到困惑。
为了帮助开发者填补从懂原理到能落地的关键拼图AI大学堂基于大量的业务实战经验精心打磨课程正式推出RAG工程师认证。
这份证书将是你系统化掌握 AI 落地核心能力的绝佳机会认证现已开启限时免费点击认证链接开始学习
1.
查询解析捕获用户真实意图与查询优化RAG 流程始于用户输入的自然语言查询而查询解析Query Understanding则是整个流程的起点和基石。
用户查询往往是口语化、非结构化的可能存在歧义、省略或措辞不精确的问题。
因此查询解析的目标是准确理解用户的信息需求和意图并将其转化为系统能够高效处理的、优化的检索信号。
在基础处理层面系统首先需要进行文本清洗与标准化去除无关字符、处理拼写错误并统一格式。
在此基础上更深层次的语义分析开始介入包括命名实体识别NER以识别查询中的关键实体如人名、产品、日期以及意图识别以判断用户是寻求事实、定义、还是操作指南。
这些信息对于后续的元数据过滤和检索策略选择至关重要。
为了克服用户查询的简短性或模糊性提高检索的召回率RAG 系统常采用 LLM 驱动的查询优化技术。
例如在多轮对话场景中LLM 可以进行查询重写Query Rewriting根据对话历史将模糊的指代如“它”、“那个”重写为明确、独立的查询。
此外查询扩展Query Expansion则通过生成多个语义等价或从不同角度提问的查询变体来增加命中相关文档的可能性。
这些优化后的查询信号无论是关键词、实体还是新的查询语句都将作为输入传递给下一个阶段的检索模块。
1.
文档检索海量知识的精准定位与策略选择文档检索Document Retrieval是 RAG 的核心环节它负责从大规模知识库中找出与优化后查询最相关的文档片段。
检索的质量直接决定了 LLM 生成回答的事实准确性。
现代 RAG 系统主要依赖于三种检索策略稀疏检索、密集检索和混合检索。
稀疏检索主要基于关键词匹配其中最具代表性的是BM25Best Match 25算法。
BM25 是一种基于概率的检索模型它通过计算查询词在文档中的频率和在整个语料库中的稀有度并引入了文档长度归一化和词频饱和度参数来衡量文档与查询的相关性。
稀疏检索的优势在于其可解释性强、计算效率高并且对训练数据中未出现的领域外词汇具有天然的鲁棒性。
然而它的主要局限在于无法捕捉语义相似性对同义词或不同表达方式的查询检索效果往往不佳。
相比之下密集检索则利用深度学习模型如 Sentence-BERT将查询和文档编码成低维、稠密的嵌入向量。
这种方法通常采用Bi-Encoder双编码器架构通过计算向量之间的余弦相似度或内积来衡量相关性。
密集检索的优势在于其强大的语义匹配能力即使查询和文档在字面上不匹配也能通过语义关系找到相关内容。
其挑战在于计算资源消耗较大需要专门的向量数据库支持高效的近似最近邻ANN搜索。
在实际应用中为了兼顾关键词匹配的精确性和语义匹配的召回率混合检索Hybrid Retrieval成为主流选择。
它通常同时执行稀疏检索和密集检索然后通过RRFReciprocal Rank Fusion等算法对两种结果进行融合排序从而实现优势互补最大化检索的鲁棒性和效果。
下表对这三种策略进行了
总结检索策略技术原理核心优势核心局限性稀疏检索基于关键词匹配BM25高维稀疏向量。
可解释性强计算效率高对领域外词汇鲁棒。
无法捕捉语义相似性对查询措辞敏感。
密集检索基于深度学习模型Bi-Encoder低维稠密向量。
强大的语义匹配能力复杂查询效果好。
计算资源消耗大可解释性差。
混合检索结合稀疏和密集检索通过 RRF 融合。
兼顾关键词和语义匹配召回率和鲁棒性最高。
实现复杂度高需要维护两套索引。
1.
信息整合与回答生成增强推理与内容创作检索模块返回的文档片段进入信息整合阶段随后与原始查询一起输入给 LLM 进行最终的回答生成。
这一阶段是 RAG 价值的最终体现。
上下文构建与精炼是信息整合的核心任务。
由于 LLM 的上下文窗口是有限的检索到的信息必须经过精炼和组织以确保提供给 LLM 的上下文是高质量、紧凑且相关的。
这包括对检索结果进行初步的去重、摘要或关键信息提取。
最终系统将用户查询和经过筛选、排序的文档片段组合成一个结构化的输入序列并以明确的提示词Prompt格式输入给 LLM。
在 RAG 系统中LLM 的角色发生了本质性的转变。
它不再是独立地从其内部参数化知识中生成回答而是作为一个强大的推理引擎和文本生成器其生成过程被外部知识所“增强”和“约束”。
LLM 的核心作用在于信息综合能够从分散在不同文档片段中的信息中进行逻辑推理事实核查确保生成的内容与检索到的事实信息一致从而显著降低“幻觉”的风险以及自然语言生成将综合后的信息以流畅、专业的语言形式表达出来。
最终生成的答案必须同时满足准确性Accuracy和流畅性Fluency两个标准并能够提供引用来源以增强系统的可信度和可追溯性。
核心组件深度解析RAG 系统的性能上限取决于其核心组件的技术选型和优化程度。
从数据摄取到向量存储每一个环节都蕴含着复杂的技术挑战和优化空间。
2.
数据预处理与文本分块数据预处理是 RAG 系统的“地基”其任务是将原始、异构的数据转化为统
干净、适合检索和嵌入模型处理的格式。
在实际部署中RAG 系统需要处理各种复杂的数据源例如包含复杂布局、表格和图片的PDF 文档需要使用Layout-Aware Parsers来提取文本并保留结构信息以及包含大量冗余标签的HTML 网页需要进行内容提取以只保留文章正文。
对于结构化数据如 SQL 数据库则需要将其转化为自然语言描述以便进行向量化。
在预处理流程中文本分块Chunking无疑是最具艺术性和挑战性的环节。
目标是创建大小适中、语义完整的“块”Chunks以最大化检索的相关性和 LLM 的处理效率。
一个好的文本块应该包含足够的信息来回答一个问题但又不能过长以避免稀释关键信息。
在分块策略的选择上需要进行精妙的权衡。
固定大小分块虽然实现简单但容易在语义边界处截断破坏上下文。
因此业界更倾向于采用语义分块策略例如基于段落、章节或标题进行分割。
其中递归字符文本分割器RecursiveCharacterTextSplitter是目前最流行的实践它尝试使用一系列分隔符如换行符、句号、空格递归地分割文本以优先保持语义完整性。
下表
总结了主要的文本分块策略分块策略描述核心优势核心挑战固定大小分块按固定字符数或 Token 数分割设置重叠量。
实现简单大小可控。
容易在语义边界处截断破坏上下文。
语义分块基于段落、章节、标题等语义边界进行分割。
保留语义完整性每个块是独立的逻辑单元。
实现复杂依赖于文本的格式规范性。
父文档检索存储小块用于检索返回包含该小块的更大“父文档”作为上下文。
检索精确小块上下文丰富大块。
索引和检索逻辑更复杂。
在实践中块大小chunk_size的选择需要根据所使用的嵌入模型和 LLM 的上下文窗口大小进行权衡而重叠量chunk_overlap的设置则用于确保语义连续性防止关键信息被分割到相邻块的边界。
2.
嵌入技术语义空间的量化与模型选择嵌入技术Embedding是 RAG 系统中实现语义匹配的基石。
它将人类可读的文本转化为低维、稠密的数值向量从而在向量空间中量化文本的语义信息。
在这个向量空间中语义相似的文本片段会被映射到彼此靠近的位置。
嵌入模型的质量直接决定了密集检索的上限。
选择模型时需要综合考虑其在MTEBMassive Text Embedding Benchmark等基准测试上的性能、领域适应性、计算资源需求以及成本。
例如Sentence-BERT (SBERT)系列模型因其在句子相似度任务上的出色表现和高计算效率而广受欢迎。
对于需要处理中文或特定领域知识的 RAG 系统则需要考虑使用在相关数据上进行过微调的BGEBAAI General Embedding或GTEGeneral Text Embeddings等高性能模型。
一旦文本被转换为嵌入向量相关性通常通过计算向量之间的余弦相似度来衡量。
余弦相似度衡量的是两个向量方向的一致性它能够有效地忽略文本长度的影响专注于语义方向的匹配。
在向量空间中查询向量与文档片段向量越接近余弦相似度越接近 1则语义越相似从而实现高效的语义检索。
2.
向量存储与索引高效搜索与调优一旦文本被嵌入就需要向量数据库Vector Database来高效存储、管理和查询这些高维向量。
向量数据库如 Pinecone, Milvus, Qdrant, Chroma的
核心价值在于支持高效的近似最近邻Approximate Nearest Neighbor, ANN搜索。
由于精确最近邻搜索ENN在高维空间中计算成本极高向量数据库普遍采用 ANN 算法通过牺牲少量精度来换取查询速度的显著提升。
其中HNSWHierarchical Navigable Small World和IVFInverted File Index是目前最主流的两种索引结构。
HNSW 是一种基于图的 ANN 算法它构建了一个多层图结构通过图遍历进行搜索。
其优势在于召回率高、搜索速度快但内存占用相对较高。
在实践中通过调整 参数可以灵活地在召回率和查询延迟之间进行权衡较大的 值会提高召回率但会增加延迟。
IVF 则是一种基于聚类的 ANN 算法它首先将向量空间划分为多个单元搜索时只在最近的几个单元内部进行精确搜索。
IVF 的优势在于内存效率高适用于超大规模数据集。
下表
总结了这两种主流 ANN 索引算法的特点ANN 索引算法原理概述核心优势性能权衡HNSW基于图的算法构建多层图结构进行搜索。
召回率高搜索速度快支持动态更新。
内存占用高通过 权衡召回率与延迟。
IVF基于聚类的算法搜索时只检查最近的单元。
内存效率高适用于超大规模数据集。
召回率可能略低通过 权衡召回率与延迟。
向量数据库还必须支持元数据过滤允许用户在检索时根据文档的元数据如日期、作者、主题进行限制或筛选从而实现更精确的混合搜索Hybrid Search。
选择合适的向量数据库和索引策略并进行精细的参数调优是确保 RAG 系统在生产环境中稳定、高效运行的关键。
高级优化策略为了将 RAG 系统的性能推向极致必须在检索的前端和后端引入高级优化策略对查询和检索结果进行精益求精的处理。
3.
预检索优化主动增强查询信号预检索优化旨在在实际检索发生之前通过对查询进行智能处理生成更强大的检索信号以解决原始查询的局限性。
其中最具创新性的技术之一是假设性文档嵌入HyDE。
HyDE 解决了词汇不匹配Lexical Gap的问题。
其原理是首先利用 LLM 根据原始查询生成一个假设性文档这个文档是 LLM 认为最能回答原始查询的理想文档。
然后对这个假设性文档进行嵌入并使用其嵌入向量进行检索。
由于假设性文档通常比原始查询包含更丰富的语义信息和更接近文档的词汇因此其嵌入向量能够更好地捕捉查询的意图显著提高检索的准确性。
然而这种方法会增加额外的 LLM 调用从而增加系统的延迟和运行成本。
此外对于需要多步推理才能回答的复杂问题系统需要引入LLM Agent来协调和规划检索步骤实现多跳检索Multi-Hop Retrieval。
Agent 会将一个复杂问题分解为多个子问题并依次进行检索将前一步的检索结果作为后一步查询的上下文从而实现复杂的知识推理。
3.
检索后处理精炼与重排序的二次筛选检索后处理发生在文档检索之后、LLM 生成之前是提升准确率Precision的关键环节。
尽管检索器已经返回了 Top-K 结果但这些结果可能仍然包含一些相关性较低或冗余的文档。
重排序Re-ranking是检索后处理中最常用的技术。
它旨在对检索器返回的初步结果进行二次筛选和排序。
重排序通常使用交叉编码器Cross-Encoder模型。
与 Bi-Encoder 独立编码查询和文档不同交叉编码器将查询和文档拼接在一起然后将拼接后的文本输入到模型中。
这种方式能够捕捉查询和文档之间细粒度的交互信息从而在判断相关性方面比 Bi-Encoder 更准确能够显著提高最终答案的质量。
由于交叉编码器的计算成本较高它通常只用于对 Bi-Encoder 返回的少量如 Top-50结果进行二次排序选出最相关的 Top-N如 Top-5作为 LLM 的上下文。
除了重排序系统还需要解决检索结果的冗余性和多样性问题。
最大边际相关性MMR是一种常用的算法它在选择下一个文档时不仅考虑文档与查询的相关性还考虑其与已选文档的多样性。
MMR 的目标是选择一个既相关又与已选文档不重复的文档集合从而确保提供给 LLM 的上下文既全面又精炼。
3.
模块协同与评估体系RAG 系统的卓越性能源于其各模块的紧密协同和持续的迭代优化。
在复杂的 RAG 架构中LLM 不仅是生成器还可以作为Agent协调不同模块的调用例如根据检索结果的质量决定是否需要进行二次检索或调用外部工具。
一个成熟的 RAG 系统必须包含持续的反馈循环Feedback Loop。
反馈可以来自用户显式满意度评分或隐式后续查询行为和系统内部模型评估。
RAG 系统的评估是一个多维度的挑战需要同时评估检索质量和生成质量。
检索质量通常通过召回率Recall、MRRMean Reciprocal Rank等指标来衡量而生成质量则需要评估答案的忠实度Faithfulness即答案与上下文的一致性、相关性Relevance和流畅性Fluency。
下表
总结了 RAG 系统的主要评估维度评估维度核心关注点关键指标/框架优化方向检索质量找到所有相关文档的能力和排序准确性。
召回率、MRR、NDCG嵌入模型、分块策略、索引参数。
生成质量答案与上下文的一致性、与查询的相关性。
忠实度、相关性、流畅性RAGASPrompt 工程、LLM 参数、上下文精炼。
端到端性能系统在生产环境中的效率和经济性。
延迟Latency、吞吐量QPS、成本ANN 算法、硬件资源、缓存策略。
RAGASRetrieval-Augmented Generation Assessment等评估框架的出现利用 LLM 自身的能力来评估 RAG 系统的忠实度和上下文相关性为 RAG 系统的迭代优化提供了量化工具。
通过这种持续的评估和优化RAG 系统能够不断学习和适应新的数据和用户需求从而提供越来越智能和可靠的服务。
四、
总结RAG 技术通过将 LLM 的强大生成能力与外部知识库的实时性、准确性相结合为构建可靠、可信赖的 AI 应用提供了强大的技术框架。
它代表了 LLM 从“知识黑箱”走向“知识透明”的关键一步。
RAG 的未来将聚焦于多模态 RAG处理文本、图像、视频、多跳推理和LLM Agent 协同以应对更复杂的现实世界挑战。
学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】