首页速度优化企业网络改造必看：如何用华为S5700三层交换机解决多部门隔离通信？

网站优化

Windows系统优化：在Win10/Win11上为Qwen3-ASR-0.6B部署清理C盘空间

WeKnora参数详解：temperature/top_p/repetition_penalty对答案可靠性影响

提示工程架构师晋升难？因为你没搞懂这套「成长地图」

2026-06-12 04:18:29

阅读时长:3分钟

562次阅读

核心内容摘要

【2025最新】基于SpringBoot+Vue的+电商应用系统管理系统源码+MyBatis+MySQL

MedGemma 1.5一文详解：Gemma架构+MedQA微调+CoT可解释性三位一体解析

小白福音！阿里开源Z-Image-Turbo一键启动，无需下载模型

RL算法推导PPO - GRPO - DAPO - GSPO - SAPO在小说阅读器中沉浸阅读原文https://zhuanlan.zhihu.com/p/1986141224588027138在DPO(Direct Policy Optimizatio)之后后续的典型工作发展路线为GRPO - DAPO - GSPO - SAPO在有PPO的理论推导基础后这些论文的理论推导过程就会容易很多。

GRPO 相比PPO的改进有哪些首先PPO的优化目标为GRPO的优化目标其中其采用组采样的方式和基于规则的reward函数也能够像DPO仅加载两份模型即Actor和参考文献 Model从而在训练参数量比较大的模型时有效降低显存的占用好坏样本的覆盖程度则依赖于Rollout过程当Rollout采样的过程足够多时可以假设它能够覆盖大部分情况。

从上述角度来讲想要覆盖大部分case的数据组织成本要比DPO小很多个人猜测是目前GRPO系列方法比较流行的一个原因该方法的核心在于组采样。

但在实际训练时比较耗费时间的为Rollout阶段。

DAPO 相比GRPO的改进有哪些其优化目标如下其中和前面保持一致其不同地方则用红色显示如下为DAPO的具体改进点归一化系数对应论文中的Token-Level Policy Gradient Loss: 这里采用全局token系数进行归一化使得在处理组内长度回复差异较大时梯度会更稳定点。

非对称裁剪对应论文中的Clip-Higher): 更精细地控制策略的更新程度。

Dynamic Sampling: 直接丢弃掉采样后奖励值为0或1的样本当组内所有采样结果相同时此时按照上式计算得到的优势为0即不能带来有效梯度更新。

刚开始训练时会有较大可能出现组内奖励值全0的情况训练阶段后期则会有较大可能出现组内奖励值全1的情况为了提升Rollout阶段的采样效率直接选择丢弃奖励值为0或1的样本。

Overlong Reward Shaping: 该改进并没有在DAPO的优化目标中体现在GRPO训练时可能会出现当Rollout输出达到预先设置的最大长度时仍没有输出有效结果此时计算的奖励值为0。

为了降低模型输出时的思考长度则在输出长度方面增加一个对应软惩罚

GSPO 相比GRPO有哪些改进优化目标如下其中该优化目标相比GRPO仅改变了重要性采样的系数其相比GRPO采样系数用的是整条句子的概率情况而不是单token概率这点对于MoE模型RL训练十分有帮助。

对于单token概率可能存在Rollout Engine和 Model Engine选择的专家路由差异因此往往需要通过Routing Reply机制来确保两种Engine在同样的样本选择的路由保持一致。

一个稍微有意思的点在LLM进行预训练时需要观察模型在训练预料的PPL(文本困惑度)是否呈现出下降趋势PPL的公式与上述公式极为相似对于一个序列其困惑度的定义如下将PPL的定义带入则有对于正样本希望较大即对应到减小增大。

SAPO 相比GRPO和GSPO有哪些改进其优化目标如下其中其相比GRPO将clip操作替换为上述软控制其具有如下特点• token级别的软信任区域token级别具有更细的控制力度。

• 非对称温度设计对于正负token则采取不同的操作。

Reference

DeepSeekMath(GRPO): https://arxiv.org/pdf/

2

03300

DAPO: https://arxiv.org/pdf/

2

14476

GSPO: https://arxiv.org/abs/

2

18071

SAPO: http://arxiv.org/pdf/

2

20347

喿辶喿辶喿辶喿读xun还是xie-喿辶喿辶喿辶喿读xun还是应用

相关标签

光影流转的指尖艺术：深度解析“91在线精品国产首页自在拍优质资源推荐”背后的视觉革命美国十次超级大导航：本土崛起，征服世界的商业蓝图岁月流金，情深意长——“久操”：一份对时光与爱的深情致敬 91吃瓜爆料黑料网曝门 xxxxx：解锁未来生活的无限可能 99999国产精品推荐：穿越时光的匠心之作，点亮你的生活新篇章亚洲精品一区二区三区：探索未知，点亮你的数字生活枫林深处，情意绵长：一场穿越时空的“枫花恋” 聆听“大雷擦狙”的枪声：一场关于精准与力量的对话那些泪眼婆娑的瞬间：小乔的“翻白眼流泪”表情包图鉴踝间风情：从“露脚踝白鞋白袜”的时尚密码到生活态度的宣言困困的宇宙：不止是“男生女的困困”，更是关于“你”的理解我想你，我下我的BB文字：那些词不达意的废话，是我最深情的投降男生男生在一起，愁什么？那些我们心照不宣的“愁”事

别让AICoding吞噬你的核心能力：从热情浮躁中清醒

2026-06-12 04:18:29 7分钟阅读

Qwen3-ASR-1.7B应用案例：打造智能语音助手如此简单

2026-06-12 04:18:29 1分钟阅读

MinHook：Windows系统API拦截与重定向的轻量级解决方案

2026-06-12 04:18:29 2分钟阅读

Windows系统优化：在Win10/Win11上为Qwen3-ASR-0.6B部署清理C盘空间

核心内容摘要

小白福音！阿里开源Z-Image-Turbo一键启动，无需下载模型

GSPO 相比GRPO有哪些改进优化目标如下其中该优化目标相比GRPO仅改变了重要性采样的系数其相比GRPO采样系数用的是整条句子的概率情况而不是单token概率这点对于MoE模型RL训练十分有帮助。

SAPO 相比GRPO和GSPO有哪些改进其优化目标如下其中其相比GRPO将clip操作替换为上述软控制其具有如下特点• token级别的软信任区域token级别具有更细的控制力度。

DeepSeekMath(GRPO): https://arxiv.org/pdf/

03300

DAPO: https://arxiv.org/pdf/

14476

GSPO: https://arxiv.org/abs/

18071

SAPO: http://arxiv.org/pdf/

20347

喿辶喿辶喿辶喿读xun还是xie-喿辶喿辶喿辶喿读xun还是应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

Windows系统优化：在Win10/Win11上为Qwen3-ASR-0.6B部署清理C盘空间

核心内容摘要

小白福音！阿里开源Z-Image-Turbo一键启动，无需下载模型

GSPO 相比GRPO有哪些改进优化目标如下其中该优化目标相比GRPO仅改变了重要性采样的系数其相比GRPO采样系数用的是整条句子的概率情况而不是单token概率这点对于MoE模型RL训练十分有帮助。

SAPO 相比GRPO和GSPO有哪些改进其优化目标如下其中其相比GRPO将clip操作替换为上述软控制其具有如下特点• token级别的软信任区域token级别具有更细的控制力度。

DeepSeekMath(GRPO): https://arxiv.org/pdf/

03300

DAPO: https://arxiv.org/pdf/

14476

GSPO: https://arxiv.org/abs/

18071

SAPO: http://arxiv.org/pdf/

20347

喿辶喿辶喿辶喿读xun还是xie-喿辶喿辶喿辶喿读xun还是应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐