核心内容摘要
鸣人敲响小樱家门:一场跨越时空的爱意叩问
本文基于Stanford CS336课程系统介绍大模型开发
关键技术涵盖BPE分词、网络结构设计、超参数选择、训练技巧、MoE架构、GPU优化、分布式训练及推理优化等核心内容。
详细解析从LayerNorm到RMSNorm、RoPE位置编码、Flash Attention等实现方法并探讨Scaling Law等基础理论为构建大语言模型提供全面技术框架。
这是一份我根据 Stanford CS336Build LLM from Scratch的学习笔记整理。
主要涵盖了 Tokenizer、计算复杂度、网络结构设计、超参数、训练技巧、MoE、GPU 优化、分布式训练、推理优化、Scaling Law、评估、数据处理和推理方法等内容算是学习大语言模型必知必会的系统性框架。
01BPE Tokenizer自底向上合并字节的分词器Byte-Pair Encoding。
通过不断合并高频字节对逐步形成稳定的子词单元。
02FLOPs 计算与显存估算计算量估算矩阵乘法中平均每个参数大约需要 2 FLOPs/token。
例如7B 模型 ≈ 14B FLOPs/token。
常用操作tensorstride实现、einops、einsum、jaxtyping。
浮点数精度表示fp32tf3219bitfp
bf16fp8低精度 动态范围限制低精度 → 计算更快但数值稳定性下降前向/反向计算复杂度backward ≈ forward 的 2 倍因为要对参数和激活都做运算。
显存估算参数 激活 梯度 优化器状态。
推理阶段可量化节省显存但训练阶段通常不能量化。
03网络结构选择归一化LayerNorm → RMSNorm无 bias减少内存移动和显存占用同时保持可学习性。
位置选择PostNorm → PreNorm → PreAfter但不是 Post优点无 warmup、不易梯度爆炸/消失更易训练。
FFN 设计去掉 bias减少显存占用避免低精度下 bias 溢出。
激活函数GELU → SwiGLU门控激活效果更好。
输出维度缩放d_out 2/3 * d_model参数量不变。
位置编码三角函数 → RoPE设计原则保留相对位置信息 f(x,i) * f(y,j) g(x,y,i-j)。
04超参数选择FFN 宽度普通激活d_hidden_ffn 4 * d_model门控激活d_hidden_ffn 8/3 * d_model总参数保持一致。
注意力头head * head_dim d_model若 head * head_dim d_model → 部分头会退化为低秩注意力。
宽深比d_model / layer_num ≈ 100太宽 → T5太深 → GPT-2都不好。
词表规模单语言30K–50K多语言100K训练策略数据只过一遍epoch1。
Pretrain 阶段一般加 dropout
1部分工作不加。
学习率调度训练后期学习率降到初始值的 1/10 以下如 1e-5进入微调阶段。
Weight Decay后期正则化作用增强强制参数收缩至零提升泛化能力。
05训练技巧稳定性监控同时观察 loss 和梯度 L2避免 spike。
不追求 loss 越低越好而是追求稳定。
spike 来源Attention softmax 溢出Output softmax 溢出解决方法Output softmax增加 z-loss (logZ -
²Attention softmaxQK NormalizationSoft-cap 技术效果一般不如 QKNorm。
推理显存优化KV Cache 优化MQA → KV 共享多头 QKV 复用。
Sparse AttentionSliding Window、RoPE Window。
06Mixture of ExpertsMoE问题多机环境才有成本优势路由策略不可微依赖启发式。
MoE vs Dense LayerHash Expert / Switch Layer / Dynamic Routing → 不同策略。
基本思想每个 token 选择 top-K expertsK≥2 更利于探索。
DeepSeek V3 MoESigmoid gate reweight防溢出Softmax gate 可不 reweight后续层自适应调整 scale采用 8 专用 1 Shared expert降低 FFN hidden dim。
负载均衡Gate 加噪声训练前期探索后期逐渐消失。
Switch Transformer / DeepSeek V1V2 → 加辅助 loss 控制专家使用比例。
DeepSeek V3 → online bias 调整推理阶段加 sequence-wise imbalance loss。
额外问题推理时专家设备过载 → 随机 drop token导致不确定性。
Gate softmax 必须用 fp32。
小数据集易过拟合 → 交替 MoE Dense 层SFT 时只调 Dense。
Upcycling 技术从 dense 模型复制 FFN形成 MoE 结构增加专家负载均衡 loss。
MLA 优化减少 RoPE 影响分解 Q/K 计算。
DeepseekV3 MTP 优化多 token 并行预测。
07GPU 硬件与优化基本概念一个 SM block warp32 threads。
同 warp 内必须执行相同指令。
性能瓶颈FLOPs 增长快于显存带宽 → 显存更宝贵。
优化技巧避免分支if 会造成线程空转。
混合精度fp32/bf16 → 聚合操作fp16/bf16 → 矩阵乘法。
Kernel Fusion减少读写显存次数。
重计算用计算换内存 IO。
Memory Coalescing寻址对齐充分利用 DRAM burst。
Tilingtile 级别并行减少残余块保证高效并发。
Flash AttentionOnline Softmax Tiling Kernel Fusion。
性能分析工具PyTorch profiler粗NVTX profiler细CPUGPU 协同算子优化方案优先级PyTorch 内置算子最快Triton 手写函数Torch.compile 优化函数CUDA Kernel麻烦Python 手写函数最慢08分布式并行数据并行ZeROZeRO-1和 DDP 通信量相同all reduce reduce scatter all gather显存节省2212/N。
ZeRO-2梯度计算与reduce scatter 通信异步。
ZeRO-3FSDP参数切分显存更省通信 2all gather1reduce scatter
5 倍 costZeRO 要求激活函数仍需全部保留能扩展系统接受更大的 batchsize缺点超大网络超多节点因通信量导致性能下降模型并行Pipeline ParallelPP通信激活值节省显存适合大模型。
Tensor ParallelTP依赖allreduce矩阵乘法可并行LayerNorm 不行。
组合策略优先 DPZeRO再单机内部 TP≤8最后 PP。
DeepSeek V316路 PP Expert Parallel ZeRO-1 DP。
GPU 数量公式gpu_num dp × pp × tp09推理InferencePrefill 阶段Compute-limitedbatchsize 增大更高效。
Generate 阶段Memory-limited效率1。
加速方法KV Cache 优化GQAMLACLAGlobalLocal Attention。
Attention 结构优化Mamba、Linear Attention、Diffusion 解码。
量化int8。
蒸馏大模型指导小模型Draft Check。
动态 batching支持新增 request。
Page Attention减少显存碎片。
10Scaling LawData Scaling Law小规模实验 → 确定 scaling region → 扩展至大规模。
用于预测数据组成占比的需求network架构选择优化器选择超参选择Model Scaling Law不同 flops 下的最优模型范围。
学习率是例外不符合 scaling law。
Critical Batch Size小 batch → 噪声大大 batch → 噪声比例恒定可用梯度累积扩展 batch。
学习率与 batch 协同扩大 batch → 必须线性增大学习率保持更新幅度不变。
Scaling Prediction多次实验拟合最优点预测最优模型参数。
muPMaximal Update Parametrization针对 LLM 超参数跨尺度迁移。
通过重新参数化 → 保持训练动态稳定。
小模型调参 → 可迁移到大模型。
11模型评估Perplexity LevelTask Level12数据处理工具kenLMngramfastText 分类器Importance Sampling应用语种识别数据质量过滤有害文本过滤去重方法BloomFilter、MinHash重复文档统计次数 → log 采样训练13Reasoning推理能力RLHFReinforcement Learning with Human FeedbackPPOProximal Policy OptimizationDPODirect Preference OptimizationGRPOGeneralized Reinforcement Preference OptimizationAI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。
帮助很多人得到了学习和成长。
只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。
大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享
从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点
AI大模型学习路线图还有视频解说全过程AI大模型学习路线
学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的
大模型面试题目详解
这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。
目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。
这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。
课堂上不光教理论还带着学员做了十多个真实项目。
学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。
零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。
业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。
获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】