核心内容摘要
“正能量不良网站”免费下载:打破信息壁垒,点亮你的数字生活
RL算法推导PPO - GRPO - DAPO - GSPO - SAPO在小说阅读器中沉浸阅读原文https://zhuanlan.zhihu.com/p/1986141224588027138在DPO(Direct Policy Optimizatio)之后后续的典型工作发展路线为GRPO - DAPO - GSPO - SAPO在有PPO的理论推导基础后这些论文的理论推导过程就会容易很多。
GRPO 相比PPO的改进有哪些首先PPO的优化目标为GRPO的优化目标其中其采用组采样的方式和基于规则的reward函数也能够像DPO仅加载两份模型即Actor和参考文献 Model从而在训练参数量比较大的模型时有效降低显存的占用好坏样本的覆盖程度则依赖于Rollout过程当Rollout采样的过程足够多时可以假设它能够覆盖大部分情况。
从上述角度来讲想要覆盖大部分case的数据组织成本要比DPO小很多个人猜测是目前GRPO系列方法比较流行的一个原因该方法的核心在于组采样。
但在实际训练时比较耗费时间的为Rollout阶段。
DAPO 相比GRPO的改进有哪些其优化目标如下其中 和前面保持一致其不同地方则用红色显示如下为DAPO的具体改进点归一化系数对应论文中的Token-Level Policy Gradient Loss: 这里采用全局token系数进行归一化使得在处理组内长度回复差异较大时梯度会更稳定点。
非对称裁剪对应论文中的Clip-Higher): 更精细地控制策略的更新程度。
Dynamic Sampling: 直接丢弃掉采样后奖励值为0或1的样本 当组内所有采样结果相同时此时按照上式计算得到的优势为0即不能带来有效梯度更新。
刚开始训练时会有较大可能出现组内奖励值全0的情况训练阶段后期则会有较大可能出现组内奖励值全1的情况为了提升Rollout阶段的采样效率直接选择丢弃奖励值为0或1的样本。
Overlong Reward Shaping: 该改进并没有在DAPO的优化目标中体现在GRPO训练时可能会出现当Rollout输出达到预先设置的最大长度时仍没有输出有效结果此时计算的奖励值为0。
为了降低模型输出时的思考长度则在输出长度方面增加一个对应软惩罚
GSPO 相比GRPO有哪些改进优化目标如下其中该优化目标相比GRPO仅改变了重要性采样的系数其相比GRPO采样系数用的是整条句子的概率情况而不是单token概率这点对于MoE模型RL训练十分有帮助。
对于单token概率可能存在Rollout Engine和 Model Engine选择的专家路由差异因此往往需要通过Routing Reply机制来确保两种Engine在同样的样本选择的路由保持一致。
一个稍微有意思的点在LLM进行预训练时需要观察模型在训练预料的PPL(文本困惑度)是否呈现出下降趋势PPL的公式与上述公式极为相似对于一个序列其困惑度的定义如下将PPL的定义带入 则有 对于正样本希望 较大即对应到 减小 增大。
SAPO 相比GRPO和GSPO有哪些改进其优化目标如下其中其相比GRPO将clip操作替换为上述软控制其具有如下特点• token级别的软信任区域token级别具有更细的控制力度。
• 非对称温度设计对于正负token则采取不同的操作。
Reference
DeepSeekMath(GRPO): https://arxiv.org/pdf/
2
03300
DAPO: https://arxiv.org/pdf/
2
14476
GSPO: https://arxiv.org/abs/
2
18071
SAPO: http://arxiv.org/pdf/
2