“扌喿辶畐”的醇厚韵味与“畐畬”的文化传承:一场穿越时空的味蕾与心灵之旅

核心内容摘要

穿越时空的自由意志:当“自由人”与“西元管人”相遇在光影世界
岁月流转,风姿永存:探寻“日本老太婆BBBBBB”的别样魅力

mofos软件:解锁无限可能,颠覆你的数字体验

文章系统梳理了大模型训练流程包括预训练获取基座模型和后训练监督微调SFT与强化学习RL。

SFT通过标注数据集调整参数使模型更贴合特定场景RL则利用奖励模型引导模型优化方向。

通过DeepSeek和Qwen两个实际案例展示了这些训练方法在大模型开发中的具体应用帮助初学者理解大模型训练的基础逻辑和不同训练方式的关系。

预训练Pre-Training和后训练Post-Training“训练Training”其实是多年前机器学习时代就有的概念把机器学习模型可以想象成一个包含有多元变量的数学函数公式yw1x1w2x2…wnxnb其中X

X2…Xn就是预先选择好要参与计算的特征变量然后利用一组包含特征值x和结果值y的历史数据进行训练得到就是各个特征变量的权重系数W

W2…Wn这样这个函数就建立起来训练出来了然后预测过程就是将新的一组变量x代入这个函数公式模型进行计算得到函数结果y就是预测值。

虽然大模型本质和机器学习差异还是巨大的比如大模型的训练过程是不需要人工预先选择/设计特征x的而是自动学习提取出来的大模型的权重系数W的数量是巨大的几十亿到上万亿参数量大模型的推理是基于词向量的概率推理和机器学习这种确定性映射计算不同等。

但为了便于理解我们还是可以将大模型的训练过程简单理解成以上数学函数的训练过程最终都是为了训练得到这个函数的一套权重参数只不过大模型的这个函数公式特别通用化、变量特征不固定、权重参数量特别多。

这个过程就包括预训练pre-training和后训练post-train其相互关系如下预训练pre-training得到的叫基座模型可以认为是得到数学函数的一套基础权重参数可以满足一般场景的预测和推理需要。

后训练post-train则是在这个基座模型基础上结合业务场景需要和行业知识数据等进一步训练最终是调整了基座模型的某些权重参数以更精准的满足具体业务场景预测和推理需要。

监督微调SFT和强化学习RL后训练post-train内部又包含监督微调Supervised Fine-TuningSFT和强化学习Reinforcement LearningRL两个方向其主要实现机制对比如下先利用前文所述数学函数的例子来看看监督微调与强化学习的区别监督微调是要准备一组特征值X和结果值Y也就是所谓的标注/标签组成的数据集来进行训练通过调整函数的权重参数让它的预测值与结果值Y尽可能接近它的核心目标就是要最小化预测值与真实标签的误差而强化学习则不需要预先准备好结果值Y它只要提供输入让函数模拟计算再通过与环境的交互获得反馈奖励或惩罚通过调整参数尽可能获取奖励它的核心目标是要能最大化长期累积奖励期望值。

更形象的比喻监督微调有点像刷练习题预先准备好题目和标准答案通过同类题目的反复练习和纠错调参确保碰到新题也能作对而强化学习有点像模拟考需要阅卷老师评价通过反复模拟考提升书写规范性、掌握时间分配、符合阅卷老师倾向等以尽可能得高分。

如上所述监督微调Supervised Fine-TuningSFT核心是要用到精确标注的数据集而且是输入特征/输出标签成对出现的数据集比如教育领域的题目和解题方法医疗领域的症状和诊断方法法律领域的案情和判决结果等经过微调部分参数或全部参数得到一个适用于特定行业领域更精准的专有模型。

基础逻辑讲得非常清晰按微调的代价从高到低包括全量微调Full-Tuning给基座模型“重塑金身”相当于对以上所说数学函数的权重参数w全部都调整冻结部分参数Freeze-Tunging只调“头部”参数低秩适应LoRA给基座模型加外挂配件相当于不用改模型本身参数而是通过做加法在基座模型上额外增加一些小的数学函数以确保最终预测和推理结果也能符合行业特性还有更轻量的量化低秩适应QLoRA是把基座模型先量化压缩后再做加法。

强化学习Reinforcement LearningRL的核心逻辑和微调SFT差别很大它核心是通过奖励函数/奖励模型Reward Model的方式来引导大模型形成一定的“肌肉记忆”就是通过对模型输出选择某些质量维度如回答的有用性、安全性进行评价生成‌奖励分数‌来指导大模型自我优化方向举个例子可能更好理解比如我们常用的一些聊天对话大模型之所以能够提供所谓的“情绪价值”之所以不会出现暴力和涩涩的回答很大程度上是通过强化学习实现的在强化学习期间如果大模型的输出是温暖和正面的奖励模型就给它加分经过长时间的强化学习引导大模型的回答自然就会符合这些价值观和偏好。

所以强化学习的核心就在于奖励模型这个才是灵魂和难度所在当然强化学习内部又还有多种策略比如RLHF人类反馈强化学习、PPO近端策略优化、GRPO群体相对策略优化等后面案例中也会有所展开。

DeepSeek的模型谱系示例接下来我们用DeepSeek的模型谱系案例来理解上述预训练、监督微调和强化学习等不同训练方法的具体实践如图我们都很熟悉DeepSeek有两种比较常用的模型通用语言模型V3和推理增强模型R1这两种模型实际都是在基座模型DeepSeek-V3-Base基础上经过监督微调和强化学习出来的。

和我们一般认知有所不同都说R1是基于V3的实际指的是基于V3-Base这个基座模型Foundation Model。

然后用于聊天对话的V3实际也是在V3-Base基础上经过专门的后训练得出来的基于标注好的问答数据集做SFT基于强化学习评价引导等所以才能在聊天对话中提供“情绪价值”。

而R1则是推理增强模型其核心也包括监督微调SFT过程利用带思维链推理过程标注的数据集也包括强化学习RL过程利用奖励模型来评分如有推理过程和格式就加分推理过程越清晰得分越多等。

经过多轮次交替最终得到这种推理增强模型细节可以参考《一文读懂DeepSeek R1训练过程》这篇文章。

额外提一句R1推理模型因为有Thinking思考过程响应时间更慢一些但可解释性更强一些所以更适合复杂分析和

总结的场景而需要即时响应并反馈的场景则更适合用通用语言模型V3。

五一前夕出来的Qwen3模型则是一个混合推理模型可以按需开启/关闭推理思考过程。

Qwen

5-Math模型谱系示例前段时间因为要引用Qwen的数学模型Qwen

5-Math-7B-Instruct在魔搭社区找到该模型的介绍看到其模型谱系如下如图在Qwen

5模型基础上利用数据集“Math Corpus V2”经过预训练Pre-train得到Qwen

5数学模型系列的基座模型“Qwen

5-Math”。

在基座模型“Qwen

5-Math”基础上经过监督微调SFT得到Qwen

5-Math-SFT模型这里提到SFT过程包括这段英文主要说明微调SFT过程用到了思维链CoT做法以及集成工具推理TIR的做法关键是利用“Math SFT V2”这套标注数据集实现中英文数学问题的解答。

在Qwen

5-Math-SFT模型基础上进一步进行强化学习其核心是利用“Qwen

5-Math-RM72B”这个评价模型Reward Model同时基于‌群体相对策略优化GRPOGroup Relative Policy Optimization才最终得到我们要在业务场景中使用的模型“Qwen

5-Math-7B-Instruct”。

如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。

但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。

这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。

我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。

那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。

正确的学习路线可以为你节省时间少走弯路方向不对努力白费。

这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。

在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。

以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有

年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。

风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。

本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

以上全套大模型资料如何领取

高清乱码+++免费男大爷视频-高清乱码+++免费男大爷视频应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123