核心内容摘要
Go 语言系统编程与云原生开发实战(第18篇)
最近两天抽时间亲手搭建了一套完整的RAG知识库系统从0到1落地的过程中踩了不少坑也吃透了知识库构建、智能检索的核心流程今天就把整个实操过程做一次详细
总结不管是刚入门大模型的小白还是想练手实操的程序员都能跟着学、跟着做建议收藏备用先跟大家说下我搭建这套RAG知识库系统的核心目的平时工作和学习中积累了大量零散笔记、技术文档、学习资料分散在各个文件夹、笔记软件里找起来特别麻烦。
所以我想做一个统一的检索入口把所有零散资料都自动对接进来实现“一次搭建终身复用”不管是查过往笔记、技术知识点还是工作相关资料都能快速精准找到大大提升学习和工作效率对个人成长也能起到很好的沉淀作用。
整个RAG系统的核心其实就是两大模块知识构建流程和智能检索流程其中知识构建是基础检索流程是核心体验两者环环相扣每一步都不能马虎。
先重点拆解知识构建流程这部分也是小白最容易踩坑的地方建议重点看、重点记。
知识构建流程看似复杂其实拆解开来就是7个关键步骤缺一不可文件解析 → 文本提取 → 文本清洗 → 文本分块 → 向量化 → 生成摘要 → 存储到向量数据库。
这里必须强调一句这7个步骤每一步的执行质量都直接影响最终的检索效果哪怕某一步偷工减料后续检索时都会出现“查不到、查不准”的问题尤其是小白千万别想着跳过某一步。
在这7个步骤里有两个核心关键点也是实操中需要重点打磨的文本分块策略和文本嵌入模型。
这两者的选择没有统一标准完全取决于你的使用场景——比如你是处理普通文本笔记还是专业技术文档、外文资料对应的分块策略和嵌入模型都要针对性调整选对了能让检索效果翻倍选错了只会白费功夫。
先讲文本分块这是知识构建中最关键的一步没有之一直接决定了后续检索的精准度小白一定要重点关注。
这里给大家一个避坑提醒千万别用简单的按句子拆分这种方式会破坏文本的语义完整性检索时很容易出现“答非所问”的情况。
推荐小白优先使用智能分块方式我自己实操时用的是LangChain的RecursiveCharacterTextSplitter它能自动分析文本内容的语义逻辑优化拆分规则既能过滤掉冗余、无效的信息又能最大程度保留每一块文本的语义完整性适配大部分中文场景不管是普通笔记还是技术文档都能用。
另外我在实操中新增了一个优化步骤分享给大家将文本分块的结果生成“知识种子”什么是知识种子我会在下一篇详细拆解这里先简单理解为“分块文本的优化载体”。
通过知识种子我们可以手动对分块结果进行增、删、改比如删除冗余分块、补充缺失的关键信息、修改表述模糊的内容进一步提升分块质量为后续精准检索打下基础。
再讲文本嵌入模型针对中文场景给小白和程序员们一个直接能用的选型建议优先采用BGE序列模型其中最推荐的是BAAI/bge-base-zh-v
5默认768维专门经过中文优化。
这款模型的优势很明显嵌入效果好、检索精准度高而且轻量化部署起来不复杂不管是本地搭建还是简单部署都能轻松驾驭不用花费大量时间在模型调试上。
说完知识构建流程再来讲智能检索流程——这部分直接影响用户体验也是RAG系统的
核心价值所在检索结果的准确性是用户能最直观感受到的差异。
智能检索流程比知识构建更复杂一些拆解开来有8个步骤查询预处理 → 查询扩展 → 向量化 → 相似度检索 → 重排序 → 构建上下文 → LLM生成答案 → 返回答案引用。
每个步骤都有很多实操细节这里挑几个小白容易忽略、但影响很大的点重点拆解一下查询扩展很多时候我们输入的查询问题比较简洁比如“RAG怎么搭建”如果只根据这几个关键词检索很可能找不到全面、高质量的内容。
所以我们需要对查询问题进行扩展常用的扩展方式有4种同义词扩展比如“搭建”替换为“部署”“实现”、上下文扩展补充问题的场景比如“小白如何本地搭建RAG知识库”、意图分析判断用户的核心需求比如用户问“RAG怎么搭建”核心需求是“小白可落地的实操步骤”、生成式扩展通过LLM生成相关的查询问题补充检索范围通过这些扩展方式能检索到更多、更高质量的相关内容避免出现“查不到”的情况。
混合检索单一的检索方式总有局限所以我在实操中采用了“混合检索”的方式结合关键词检索和向量检索的优点——关键词检索精准度高、速度快适合检索明确的关键词相关内容向量检索能理解语义适合检索表述模糊、语义相关的内容两者结合能大幅提升检索的全面性和精准度。
另外针对一些实时性强的内容比如最新的技术资讯、行业动态单纯检索本地知识库是不够的所以我还加入了联网搜索功能增强检索结果的实时性联网搜索部分还涉及多搜索引擎查询确保能获取到最新、最全面的实时信息。
重排序和相似度过滤检索到相关内容后并不是直接返回给用户还需要进行两步优化一是用重排序模型比如BGE-reranker模型对检索结果进行重新排序筛选出最相关的TOPN结果让用户能快速看到最有用的内容二是对相似度结果进行过滤我采用的是余弦相似度检索设置一个最低阈值小白可以先设置
7后续根据自己的场景调整过滤掉相似度低于阈值的低质量结果。
这里给大家一个重要提醒宁缺毋滥哪怕最后过滤掉所有结果也不要返回低质量、不相关的内容否则会严重影响用户体验。
构建上下文这一步很容易被小白忽略但对LLM生成答案的质量影响极大哪怕是微小的改进生成的答案质量也会有很大差距。
核心是构建一个优质的提示词Prompt提示词需要明确告诉LLM检索到的相关内容是什么、用户的查询需求是什么、需要生成什么样格式的答案比如“简洁明了、分点说明结合检索到的知识库内容附上引用来源”优质的提示词能让LLM生成更精准、更全面、更贴合需求的答案。
基于以上的思考和实操我已经完整实现了一套可落地的RAG知识库系统这里跟大家分享一句实操心得看再多的技术文档、书籍听再多的教程都不如亲手做一遍边做边学、边学边实践所谓“学中干、干中学”只有亲手踩过坑、解决过问题才能真正吃透RAG系统的核心逻辑才能把学到的知识转化为自己的能力——这也是我写这篇
总结的初衷希望能鼓励更多小白和程序员动手去实践不要只停留在“看”的层面。
话不多说先来看看我搭建的RAG知识库系统的实际效果具体的实现细节、技术选型、代码片段我会在下一篇文章详细展开大家可以先收藏这篇后续跟着实操。
先来看看效果后面会详细展开具体的实现细节和技术选型。
整体的产品界面很多功能还没有实现优先实现一个框架和核心功能打造MVP。
本次主要介绍RAG知识库系统实现效果。
知识库系统的配置界面。
左边是构建的知识库集合。
右边上半部分是知识库的配置。
包括文本输入、文件导入、网页链接三种方式上传知识然后通过文本切分生成对应的知识种子。
下半部分是知识库生成的种子。
如上传了一个pdf文件和一个网站。
文档的解析和url解析方案非常多很容易就能实现。
点击某个知识库分组可以对上传的知识生成的种子进行预览并对生成的种子的结果进行增、删、改以提高种子质量增强后续的检索结果。
同时还可以预览和下载源文件。
如果是网站可以链接到对应的原始文章。
检索生成接下来看看实际检索效果吧。
使用知识库和联网检索。
优先使用知识库如果没有结果才会使用联网搜索。
从实现的结果看不仅给出详细的解答还引入对应的知识库和对应的种子。
知识库名字易读性还比较差哈应该是用URL的标题才比较好这个改进很容易当前不影响结果哈。
再问一个实时性的问题。
很明显这个问题RAG是无法回答的直接调用联网搜索结果。
但是无论怎样向量数据库查询都会返回结果只是质量比较差需要进一步的重排序和相似度阈值判断过滤掉相似度低的结果。
大家可能看到我的整体交互形式跟其他传统的AI助手不一样。
我采用的是画布形式灵感来自flowith比较有创意。
可以在任何一个节点上继续提问。
说到画布交互形式给大家再介绍一个对我来说比较好用的功能模型对比模式。
让多个顶级AI模型并行回复你的问题然后
总结两个模型的回答质量以辅助决策。
比如我问“什么是RAG”DeepSeek V
1和Qwen
2同时给出结果。
并最终对比两个模型的生成结果并给出
总结。
最后构建这个知识库系统的目的计划将我的所有笔记和博客资料、自己收藏的好的资料、博客文章等所有资料自动统一对接到知识库系统能有一个统一入口进行检索查询对于个人学习非常方便。
比如调用有道笔记接口定期获取最新的笔记文章导入到知识库中。
比如定期爬取“新智元”等顶级的自媒体最新有关AI智能体的文章导入到知识库中。
如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。
但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。
这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。
我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。
那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。
正确的学习路线可以为你节省时间少走弯路方向不对努力白费。
这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。
在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。
以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有
年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。
风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。
本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。
以上全套大模型资料如何领取