效率直接起飞!专科生专属降AIGC工具 —— 千笔·专业降AIGC智能体

核心内容摘要

基于Java+SSM+Flask民族大学创新学分管理系统(源码+LW+调试文档+讲解等)/民族大学/创新学分/管理系统/学分管理/创新教育/民族院校/学分制度/教学管理/教育创新/高校管理
Java毕设项目:基于springboot的办公用品管理系统小程序的设计与实现(源码+文档,讲解、调试运行,定制等)

Seedance 2.0光影算法升级全解析:3大底层突破、5步零代码接入、98.7%帧率提升实测报告

文章探讨了RAG系统中语义召回和关键字召回对chunk策略的不同需求。

语义召回看重语义相似性适合有overlap的分块而关键字召回更适合按段落或句子分块。

作者提出混合召回方案建议按段落和句子分块配合强大embedding模型在两种召回方式间取得平衡以实现RAG效果最大化。

“不同的召回方式需要选择不同的chunk策略只有这样才能使得RAG效果达到最好。

”上周在社群中讨论一个关于RAG召回的问题问题主要围绕在关键字召回和语义召回具体情况是社群中有人问RAG中chunk是不是根据段落和句子进行切分的当时看到这个问题还有点奇怪因为在真实的场景中chunk需要根据不同场景选择不同的方式但肯定不只是根据段落和句子进行拆分。

但当时并没有明白过来再后面又讨论到召回策略的问题和上下文构建问题一般情况下构建上下文会使用召回的内容做上下文但还有一种方式就是把找到召回内容所在的段落把这个段落作为上下文。

这时就讨论到了一个问题长文本中使用关键字进行召回当时我问文本拆分随着长度的增加会降低其语义相似性这在语义召回中是绝对的但他说了一句用jieba关键字的混合召回这个可以解决长度问题。

所以这时作者才突然想到虽然现在RAG中的主流召回方式是语义召回但在某些情况下语义召回明显满足不了需求这时其它的召回方式就成了必不可少的手段。

所以如果用语义召回关键字召回会不会效果更好语义召回与关键字召回今天闲的无事时研究了一下关键字召回主要就是基于jieba分词工具对内容进行分词之后再使用BM25计算其相似度进行召回但这里就面临一个问题如果要使用语义召回和关键字召回应该使用什么样的chunk策略为什么会出现这个想法因为在关键字召回中其主要是通过统计句子中的词频等方式来计算相似度因此一般情况下在关键字召回中会使用段落或句子进行chunk因为这样能尽可能的保证jieba分词召回的准确性。

但这一点和语义召回却不尽相同因为语义召回更看重的是语义相似性并且会存在overlap而不是完全按照段落或句子进行拆分的这一点对语义计算来说很方便但在关键字检索中好像就没那么方便了。

所以这里就存在一个问题如果在RAG中需要使用混合检索的方式而其中又同时包含语义检索和关键字检索这时的chunk应该怎么做才比较合理所以面对这种问题就需要在关键字和语义相似度之间找到一个平衡点其实从根本上来说最好的方式是根据关键字及语义相似度各自维护一套chunk机制但这种方式在实际操作中又显得太复杂。

corpus [ 北京是中国的首都也是一座历史悠久的文化名城。

, 上海是中国的经济中心拥有繁忙的港口和现代化的建筑。

, 深圳是中国科技创新的重要城市被誉为“中国硅谷”。

, 广州的美食文化闻名全国是粤菜的发源地。

, 学习人工智能技术需要扎实的数学基础和编程能力。

, 中国的历史源远流长有许多著名的历史人物和事件。

] #

定义分词函数使用 jieba def tokenize(text): return list(jieba.cut_for_search(text)) #

对语料库进行分词 tokenized_corpus [tokenize(doc) for doc in corpus] print(f分词后的语料库 (部分展示): {tokenized_corpus}) print(tokenized_corpus[0]) # 初始化 BM25 模型 bm25 BM25Okapi(tokenized_corpus) query 中国的历史文化 tokenized_query tokenize(query) # 使用 get_top_n 获取最相关的 3 个文档 # 参数: (分词后的查询, 原始语料库, n返回数量) top_n_docs bm

get_top_n(tokenized_query, corpus, n

print(f查询: {query}) print(--- 最相关的3个文档 ---) for doc in top_n_docs: print(doc)所以面对这种问题其实最简单的方式就是按照段落和句子进行拆分然后再配置一个强大的embedding模型就基本上能在语义相似度和关键字检索中取得一个合理的平衡点。

因为从理论上来说段落和句子本身就是天然的语义分割点而这一点和关键字的切分又天然的和谐统一。

总之之前作者认为在RAG中的chunk策略都是一样的但这时才发现针对不同的检索策略需要选择不同的chunk方式两者配合才能使得效果最大化。

AI时代未来的就业机会在哪里答案就藏在大模型的浪潮里。

从ChatGPT、DeepSeek等日常工具到自然语言处理、计算机视觉、多模态等核心领域技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能就是把握高薪未来。

那么普通人如何抓住大模型风口AI技术的普及对个人能力提出了新的要求在AI时代持续学习和适应新技术变得尤为重要。

无论是企业还是个人都需要不断更新知识体系提升与AI协作的能力以适应不断变化的工作环境。

因此这里给大家整理了一份《2026最新大模型全套学习资源》包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等带你从零基础入门到精通快速掌握大模型技术由于篇幅有限有需要的小伙伴可以扫码获取

成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。

这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

书籍含电子版PDF

大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。

大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。

大模型行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

大模型面试题面试不仅是技术的较量更需要充分的准备。

在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。

为什么大家都在学AI大模型随着AI技术的发展企业对人才的需求从“单一技术”转向 “AI行业”双背景。

企业对人才的需求从“单一技术”转向 “AI行业”双背景。

金融AI、制造AI、医疗AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员近期科技巨头英特尔裁员2万人传统岗位不断缩减因此转行AI势在必行这些资料有用吗这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。

本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

大模型全套学习资料已整理打包有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

78赛13免费观看-78赛13免费观看应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123