核心内容摘要
夜幕下的心动:解锁你的专属深夜乐园
随着 LLM 应用的广泛普及如何提高模型的推理效率并降低资源消耗成为了技术发展中的一大挑战。
Unsloth通过引入多个强化学习RL算法和最新的量化技术显著提高了 LLM 在推理和微调过程中的性能并大幅降低了显存消耗。
DeepSeek 的研究人员在用纯强化学习RL训练 R1-Zero 时观察到了一个“灵光一现”的时刻。
模型学会了通过重新评估最初的思路来延长思考时间而无需任何人工指导或预定义指令。
Unsloth 对整个 GRPO 过程进行了增强使其比 Hugging Face FA2减少了 80% 的显存使用。
这意味着我们可以使用 7GB 显存通过Qwen
2.
5
5B复现了 R1-Zero “灵光一现”的时刻。
主要细节使用15GB显存Unsloth 允许我们将任何最多 15B 参数的模型如Llama
18B、Phi-414B、Mistral7B或 Qwen
57B转变为推理模型。
最低要求仅需 7GB 显存即可在本地训练自己的推理模型。
Tiny-Zero 的团队展示了如何用 Qwen
2.
5
5B复现 R1-Zero “灵光一现”的时刻——但之前需要2个A100 GPU160GB显存。
而现在通过 Unsloth我们只需一个 7GB 显存的 GPU 即可实现同样的效果。
请注意这不是对 DeepSeek 的 R1 精炼模型进行微调也不是使用 R1 的精炼数据进行微调而是通过 GRPO 将标准模型转换为一个完整的推理模型。
这种魔法可以通过 GRPO 重新创建GRPO 是一种强化学习RL算法能够高效优化响应而不需要值函数这与依赖值函数的近端策略优化PPO不同。
在我们的笔记本中我们使用 GRPO 训练一个模型旨在使其自主开发自我验证和搜索能力——创造一个迷你“灵光一现”时刻。
工作原理模型生成一组响应。
每个响应根据正确性或由某个奖励函数创建的其他度量标准进行评分而不是使用 LLM 奖励模型。
计算该组的平均得分。
将每个响应的得分与该组平均得分进行比较。
强化模型使其倾向于选择得分更高的响应。
例如假设我们希望模型解决以下问题11 等于多少 思考链/推理过程 答案是2。
22 等于多少 思考链/推理过程 答案是4。
最初必须收集大量数据来填充推理过程。
但 GRPODeepSeek 使用的算法或其他 RL 算法可以引导模型自动展示推理能力并生成推理痕迹。
相反我们需要创建良好的奖励函数或验证器。
例如如果答案正确就给它打 1 分如果有拼写错误扣
1 分依此类推我们可以提供许多奖励过程的函数。
GRPO 在 Unsloth 中的应用如果你在本地使用 GRPO 与 Unsloth请确保“pip install diffusers”因为它是一个依赖项。
等待至少 300 步才能看到奖励的实际增长请使用最新版本的 vLLM。
为了获得良好的结果你需要训练至少 12 小时这就是 GRPO 的工作方式但请记住这不是强制性的你可以随时停止。
建议将 GRPO 应用于至少
5B 参数的模型以便正确生成思考 token因为较小的模型可能无法做到。
如果你使用的是基础模型请确保拥有聊天模板。
GRPO 的训练损失追踪功能现在已直接内置于 Unsloth 中无需像 wandb 等外部工具。
除了增加 GRPO 支持外Unsloth 随后还支持了在线 DPO、PPO 和 RLOO请查看下图比较 Unsloth 的在线 DPO 显存消耗与标准 Hugging Face FA2 的差异。
Unsloth x vLLM20 倍吞吐量节省50% 显存。
现在你可以直接在微调堆栈中使用 vLLM这大大提高了吞吐量并且允许你在同一时间进行微调和推理在 1x A100 40GB 显卡上使用 Unsloth 的动态 4bit 量化的 Llama
2 3B Instruct预期吞吐量约为 4000 tokens/s。
在 16GB 的Tesla T4免费 Colab GPU上你可以获得约 300 tokens/s 的吞吐量。
Unsloth 去除了加载 vLLM 和 Unsloth 时的双倍内存使用从而节省了约 5GB 的显存对于 Llama
1 8B和 3GB 的显存对于 Llama
2 3B。
原本Unsloth 可以在 1x 48GB GPU 上微调 Llama
3 70B Instruct其中 Llama
3 70B 的权重占用了 40GB 的显存。
如果不去除双倍内存使用当加载 Unsloth 和 vLLM 一起使用时我们将需要至少 80GB 的显存。
但是使用 Unsloth我们仍然可以在不到 48GB 显存的情况下同时享受微调和快速推理的好处要使用快速推理首先安装 vllm并通过 fast_inference 实例化 Unsloth# pip install unsloth vllm什么是 GRPOGRPOGroup Relative Policy Optimization群体相对策略优化是一种强化学习RL算法旨在优化模型的响应质量而不依赖传统的值函数。
这种算法通过一种群体相对优化方法对模型的每个生成的响应进行评分并根据这些评分来引导模型的学习过程。
具体来说GRPO 算法的主要特点如下无值函数与依赖值函数的强化学习算法如PPO不同GRPO 不使用值函数来评估状态或行为的质量而是通过对模型输出的响应进行评分并基于这些评分来优化模型。
响应评分与群体平均在 GRPO 中模型生成一组可能的响应每个响应都会根据正确性或其他预定义的奖励函数进行评分。
然后计算这些响应的平均得分并将每个响应的得分与群体平均得分进行比较。
模型会得到强化倾向于生成得分较高的响应。
自我优化GRPO 能够帮助模型自主地进行推理和自我验证。
例如模型可以在没有人工干预的情况下通过不断调整思维过程来提高推理结果的准确性。
适用于多种任务GRPO 不仅可以用于常见的分类任务也可以应用于更复杂的任务如生成具有自我验证和推理能力的模型例如解答问题时展示推理过程。
总的来说GRPO通过强化学习的方式不仅优化模型的回答还能改善其推理过程使模型在没有人工反馈的情况下能够不断自我改进从而在处理复杂任务时展现出更强的推理能力。
想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容
学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI
100本大模型方向电子书
26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC
实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
600套技术大会 PPT听行业大咖讲实战PPT 整理自
年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌
107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自
年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析
102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑
97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”
路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。
L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、
关键技术以及大模型应用场景。
L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。
L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。
L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。
L5阶段专题集丨特训篇 【录播课】