核心内容摘要
禁忌的幽光:八重神子与旅行者的隐秘之恋
GroupRank创新提出分组重排范式融合Pointwise灵活性与Listwise全局比较能力通过两阶段训练(SFT强化学习)和高质量数据合成流水线解决传统重排序方法的两难困境。
在BRIGHT、R2MED和BEIR等基准测试中均实现SOTA性能为RAG系统优化提供强大技术支持。
RAG 的“守门员”困境为何需要更好的 Reranker长期以来Reranking 主要有两种主流范式Pointwise逐点式和 Listwise列表式。
Pointwise 方法这种方法非常直观它独立评估每一个“查询-文档”对给每个文档打一个相关性分数最后按分排序。
你可以把它比作一位“只看简历”的面试官他单独评估每份简历但从不把候选人放在一起横向比较。
这种方法的优点是简单、灵活、易于并行但其致命弱点在于“排序近视陷阱”——由于缺乏全局视角它无法感知文档之间的相对重要性容易在多个看起来都不错的选项中迷失方向。
Listwise 方法为了克服 Pointwise 的缺点Listwise 方法应运而生。
它一次性处理整个候选文档列表像一场“小组辩论”让模型可以充分比较所有文档从而做出全局最优的排序决策。
这种方法理论上性能更优因为它更贴近排序任务的本质。
然而它的问题在于“列表僵化困境”——它通常需要处理定长的列表当候选文档数量庞大时例如超过 100 个计算开销剧增且难以扩展。
实际应用中往往需要借助滑动窗口Sliding Window等近似技巧但这又会削弱其宝贵的全局视角。
下图直观地展示了这两种传统范式与本文主角Groupwise的区别重排序范式对比从上图可以看出Pointwise 并行度高但效果欠佳Listwise 效果好但串行处理效率低下而论文提出的Groupwise分组式范式则试图在这两者之间找到一个完美的平衡点。
GroupRank 方法总览“分组协作”鱼与熊掌兼得为了打破困境来自蚂蚁集团等机构的研究者们提出了GroupRank一个由强化学习驱动的新型重排序框架。
其核心思想是“分组评分”Groupwise Scoring将查询和一组a group of候选文档一起喂给模型模型在组内进行交叉比较后为每个文档独立生成相关性分数。
这种设计堪称精妙因为它•保留了 Pointwise 的灵活性不同组之间可以并行处理并且可以处理任意数量的文档没有列表长度限制。
•引入了 Listwise 的比较能力在每个组内部模型能够感知文档间的相对优劣从而缓解“排序近视”问题。
为了实现这一目标GroupRank 的构建主要依赖三大支柱高质量的合成数据生成、创新的两阶段训练策略以及精心设计的异构奖励函数。
支柱一高质量训练数据的“炼金术”众所周知高质量的标注数据是训练强大模型的关键但获取既有精确分数像 Pointwise又有可靠排序像 Listwise的标签非常困难。
为此作者设计了一条创新的数据合成流水线。
高质量训练数据生成流程如上图所示整个流程分为三步混合检索针对一个查询同时使用稀疏检索如 BM25和稠密检索模型召回 top-50 的候选文档取长补短。
并行标注利用强大的 LLM如 Qwen
B 和 Gemini-
5-pro作为“教师模型”对这 50 个文档进行并行标注Pointwise 标注LLM 独立为每个文档打一个
分的绝对分。
Listwise 标注LLM 对全部 50 个文档进行全局比较输出一个从 1 到 50 的相对顺序排名。
标签融合将 Pointwise 的分数和 Listwise 的排名进行归一化和加权融合Score_final α * norm(Score_pointwise) (1-α) * norm(-log(Rank_listwise))生成一个既包含分数大小信息又蕴含可靠排序顺序的“黄金”标签。
这套流程不仅为 GroupRank 提供了理想的训练数据其产出的高质量数据同样可以用于训练检索器或其他类型的重排序器。
支柱二从“冷启动”到“精通”的两阶段训练有了高质量数据接下来就是如何训练模型。
GroupRank 采用了一种“SFT RL”的两阶段范式。
GroupRank 的两阶段训练范式阶段一冷启动监督微调ColdStart SFT预训练的 LLM 既不懂得如何按指令打分也无法保证按特定 JSON 格式输出。
SFT 阶段的目的就是“教规矩”通过我们合成的高质量数据让模型学会两件事理解“相关性评分”这个任务。
严格按照{“[1]”: 5, “[2]”: 8, ...}这样的 Groupwise 格式输出答案。
阶段二基于异构奖励的强化学习Reinforcement LearningSFT 只是让模型“入门”要成为“高手”还需要强化学习RL的打磨。
作者采用了 GRPO 算法并设计了一个新颖的异构奖励函数来指导模型优化。
这个奖励函数是 GroupRank 能够实现卓越性能的核心引擎它包含四部分格式奖励 (Format Reward)确保模型输出稳定、合规。
召回奖励 (Recall Reward)激励模型将真正相关的文档排在前面。
分组排序奖励 (GroupWise Ranking Reward)直接优化最终的排序指标如 NDCG 和 RBO这是提升排序质量的关键。
分组分布奖励 (GroupWise Distribution Reward)这是一个非常有趣的设计。
它通过 KL 散度约束模型输出的分数分布与真实标签的分布保持一致。
这能防止模型为了最大化排序奖励而“作弊”例如给最相关的文档打 10 分其他都打 0 分从而保证了分数的“校准性”和“意义”让分数本身也具有参考价值。
通过这两阶段的训练GroupRank 模型得以从一个“什么都不懂”的预训练模型成长为一个既懂规则又追求卓越的排序专家。
关键结论
总结一下GroupRank 的核心贡献可以归纳为三点提出 GroupRank 框架通过创新的“分组评分”机制成功融合了 Pointwise 的灵活性和 Listwise 的全局上下文感知能力并设计了独特的异构奖励函数在强化学习阶段专门增强其重排序能力。
设计高效的合成数据流水线解决了 GroupRank 缺少高质量标注数据的瓶颈能够为检索器和重排序器生成大规模、高质量、通用的训练数据。
实现 SOTA 性能在多个对推理能力要求极高的检索基准测试中GroupRank 均取得了最先进SOTA的结果为下一代智能检索系统的发展提供了强大的技术支持。
深度拆解GroupRank 的“快”与“好”是如何实现的让我们进一步深入 GroupRank 的设计细节看看它是如何平衡效率与效果的。
方法属性对比为什么 Groupwise 更高效Reranking 的效率很大程度上取决于调用 LLM 的次数。
下表对比了不同排序范式在复杂度上的差异。
表 IV不同重排序方法的属性对比从表中可以看到Pointwise方法需要对 N 个文档调用 N 次 LLM虽然可以并行但总调用次数是O(N)。
Pairwise方法为了比较所有文档对复杂度高达O(N²)计算成本极高。
Listwise方法受限于滑动窗口复杂度为O(r * (N/s))并且通常是串行处理延迟很高。
而Groupwise方法将 N 个文档分成大小为 c 的组总调用次数仅为O(N/c)并且支持批处理Batching。
这意味着它在理论复杂度和实际并行能力上都取得了显著优势是目前最高效的范式之一。
消融实验SFT 和 RL一个都不能少为了证明两阶段训练范式和异构奖励函数中每个组件的有效性作者在 BRIGHT 基准上进行了一系列消融实验。
BRIGHT 基准上的消融研究结果非常清晰完整模型 vs. 基线完整的 GroupRank
4
18分远超仅使用检索器的基线
3
93分证明了其强大的排序优化能力。
w/o RL (只用 SFT)性能下降到
4
70。
这说明 SFT 虽然提供了良好的起点但缺乏对最终排序指标的直接优化。
RL 的端到端微调是通往卓越性能的“最后一公里”。
w/o SFT (只用 RL)性能骤降至
3
17。
这说明如果没有 SFT 进行“冷启动”让 RL 从零开始在巨大的策略空间中探索效率极低且不稳定。
SFT 为 RL 提供了一个高质量的“初始策略区”。
w/o Ranking Reward / w/o Distribution Reward移除排序奖励或分布奖励都会导致性能下降尤其是前者。
这验证了文章提到的排序奖励是驱动模型“学会如何排序”的核心动力而分布奖励则作为一种有效的正则化手段防止模型“投机取巧”保证了分数的合理性。
进阶技巧滑动窗口与多次预测的影响为了进一步探究 GroupRank 的性能上限文章还实验了一些测试时增强策略Test-Time Scaling如下表所示。
在 BRIGHT 基准上的附加实验这里的策略类似于一种“集成学习”•滑动窗口w sliding windows将 100 个文档以步长为
窗口为 20 的方式分组让每个文档有机会和不同的“邻居”进行比较增强了排序的鲁棒性。
•多次预测N多次随机打乱文档分组进行预测然后取平均分。
实验表明无论是哪种策略增加计算量即预测次数 N都能稳定提升性能。
最终在使用滑动窗口并进行 6 次预测时模型在 BRIGHT 基准上取得了
4
82 的平均分创造了新的 SOTA 记录。
实验结果刷新三大榜单实力证明一切GroupRank 在三大主流基准测试 BRIGHT、R2MED 和 BEIR 上都展示了其卓越的性能。
BRIGHT R2MED在推理密集型任务中登顶BRIGHT 和 R2MED 是两个对模型推理能力要求极高的基准。
BRIGHT 基准测试结果R2MED 基准测试结果如上两表所示无论是在通用推理领域BRIGHT还是在专业的医疗领域R2MEDGroupRank-32B 模型均以显著优势超越了所有先前的 SOTA 模型如 Rank-K 和 ReasonRank刷新了排行榜记录。
更令人印象深刻的是7B 版本的 GroupRank 在多数情况下甚至优于其他模型的 32B 版本这充分展示了 GroupRank 架构本身的高效性和先进性。
BEIR在传统检索任务中同样具备强大泛化能力为了验证其通用性作者还在传统的 BEIR 基准上进行了测试。
BEIR 基准测试结果结果显示GroupRank-32B 的平均分
5
09再次大幅超越所有对手证明了其合成数据流水线和分组训练方法不仅适用于复杂的推理任务在通用的文本检索场景中也同样具有强大的竞争力。
未来工作与思考GroupRank 的成功为 RAG 系统的优化开辟了新的道路。
论文展望未来可以探索成本更低的数据合成方法并将 Groupwise 的思想推广到更广泛的信息检索和推荐任务中。
分治与协作的平衡Groupwise 范式本质上是一种“分治”将大列表拆分为小组与“协作”在组内进行比较的结合这种思想在许多大规模计算问题中都非常有效。
数据驱动与算法设计的双轮驱动强大的算法GroupRank需要高质量的数据来喂养而精妙的数据工程合成流水线则能最大化算法的潜力。
两者相辅相成缺一不可。
RL 在排序任务中的价值通过精心设计的奖励函数强化学习可以直接优化最终的业务指标如 NDCG这是传统监督学习难以做到的。
GroupRank 的异构奖励设计为我们提供了一个优秀的范例。
如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。
但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。
这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。
我在一线互联网企业工作十余年里指导过不少同行后辈。
帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。
2023年人才缺口已超百万凸显培养不足。
随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。
加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。
大模型入门到实战全套学习大礼包
大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。
正确的学习路线可以为你节省时间少走弯路方向不对努力白费。
这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通
大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。
AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。
大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。
大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。
在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。
适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。
大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-
5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。
快速开发一个完整的基于 agent 对话机器人。
掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。
为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。
到此为止大概2个月的时间。
你已经成为了一名“AI小子”。
那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。
硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。
天道酬勤你越努力就会成为越优秀的自己。
如果你能在15天内完成所有的任务那你堪称天才。
然而如果你能完成
% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】