首页速度优化【2026年最新600套毕设项目分享】基于SpringBoot的牙科诊所管理系统（14101）

网站优化

Wan2.1-UMT5在.NET生态中的应用：开发Windows桌面视频生成工具

论文摘要AI检测率高怎么改？降低摘要AIGC疑似度的关键技巧

2026-06-08 23:09:06

阅读时长:8分钟

562次阅读

核心内容摘要

基于微信小程序的铁路订票管理系统毕业设计

从 4 万美元到 73 美元算力不再是壁垒优化与细节才是王道。

2019 年 2 月OpenAI 训练

5B 参数的 GPT-2 需要调用 32 个 TPU v3 芯片耗时一周云端算力成本约为 43,000 美元。

七年后的今天Andrej Karpathy 用代码直接证明了单节点 8xH100耗时

04 小时成本约 73 美元即可复现这一过程。

〓 NanoChat 竞速榜单d24 基线模型以

04 小时刷新记录成本降低约 600 倍。

这不仅仅是摩尔定律和 H100 硬件暴力的胜利更是软件栈Flash Attention 3, torch.compile、优化算法Muon和数据质量FineWeb-edu共同进化的结果。

Karpathy 此次的目标并非单纯降低 loss而是要在 DCLM 论文提出的 CORE metric包含 22 个基准测试的综合评估上击败 GPT-2。

最终NanoChat 以

25851 的 CORE 得分反超了 GPT-2 的

256525。

架构细节做减法与关键增量Karpathy 并没有沿用标准的 Transformer 架构而是基于当前社区的最佳实践进行了大量微调。

所有改动的逻辑很简单在不显著增加 FLOPs 的前提下提升模型容量或稳定性。

激活与归一化的极简主义ReLU² 激活放弃了常用的 GELU转而使用 F.relu(x).square()。

这种激活函数更加稀疏计算成本更低。

无参数 RMSNorm移除了所有可学习的 gamma/beta 参数仅保留归一化操作。

既减少了参数量性能也无负面影响。

QK Normalization在 RoPE 之后对 Q 和 K 进行归一化q, k norm(q), norm(k)。

这一步彻底稳住了注意力机制的数值不再需要 Attention Softcapping。

Logit Softcapping为防止数值溢出Logits 被限制在 [-15, 15] 区间内15 * tanh(logits /

且始终以 float32 计算。

Attention 效率优化Flash Attention 3采用 Native layout (B, T, H, D)。

相比 PyTorch 的 SDPA在 H100 上带来了约 9% 的吞吐提升。

Sliding Window Attention (SSSL)采用“3层短窗口 (1024 tokens) 1层全窗口 (2048 tokens)”的平铺模式。

实验证明这种混合模式在大幅节省计算量的同时几乎不损失长上下文能力。

Value EmbeddingsValue Embeddings 是本次架构中最有趣的 Trick。

模型在交替层Alternating layers引入了 Gated Value Embeddings。

# 伪代码逻辑展示 Value Embeddings 实现 ve value_embeds[layer_idx](token_ids) # (B, T, kv_dim) gate 2 * sigmoid(ve_gate(x[:, :, :32])) # range (0,

v v gate * ve这一设计为 d24 模型增加了约 150M 的参数量约占总参数量的 10%但几乎没有增加 FLOPs。

Karpathy 强调模型非常喜欢这种额外的容量任何试图降低它例如使用低秩投影或共享参数的尝试都导致了性能下降。

此外模型采用了输入输出层参数不共享Untied Embeddings以及每层引入可学习标量初始化为

0 和

1这些微小改动的叠加带来了一致的性能提升。

得益于上述架构的改进整个训练过程展现出了极高的稳定性。

〓 NanoChat 训练过程概览仅需约 3 小时即可完成收敛核心武器Muon 优化器相比常规的架构调整Muon 优化器才是这次复现的灵魂。

Karpathy 采用了分层优化策略Split Optimizer Design针对不同类型的参数使用不同的优化器。

分层策略Karpathy 设定了一组极端的超参数值得注意AdamW仅用于 Embeddings 和标量参数。

lm_headLearning Rate

004wte value_embedsLearning Rate 高达

3x0_lambdas设置了 beta

1

96通常默认

9增加了动量惯性Muon专门用于处理所有的 2D 矩阵权重Attention Projections, MLP weights。

Muon 内部机制Muon 的核心在于通过正交化更新来优化矩阵参数主要包含以下特性Polar Express 正交化使用迭代 5 次的 Polar Express 算法替代传统的 Newton-Schulz 算法强制更新量保持正交。

动量预热采用了 Nesterov momentum并在前 300 步内将动量参数从

85 线性增加至

95。

Factored Variance Reduction采用了类似 Adafactor 的方差缩减技术。

Cautious Weight Decay这是一个“Clear Win”。

仅在梯度与参数方向一致grad * param 0时才应用权重衰减。

Karpathy 试图切回纯 AdamW结果并不理想——大规模训练离不开 Muon。

在分布式训练中采用了 ZeRO-2 风格的分片每个 Rank 持有一部分优化器状态。

数据 Pipeline 与 Scaling LawNanoChat 的设计理念非常纯粹——“Depth as the Single Knob”深度即唯一旋钮。

模型维度depth ×

Head 数量等所有超参均由深度推导而来极大简化了调参复杂度。

关于 Scaling LawKarpathy 给出了一个具体的实验数值最佳 Token/Params 比例约为

1

5:1。

这一比例更接近 Compute-optimal 的设定而非 Chinchilla 建议的 20:1。

为了达到最佳效果他在训练后半程50%采用了线性衰减至 0 的 Warmdown 策略。

在数据处理上引入了 BOS-aligned 策略强制序列以 |bos| 开头和 BestFit-Crop Packing在实现 100% 显存利用率的同时将 Token 裁剪带来的浪费控制在 35% 左右。

避坑指南相比成功的 trick这份清单其实更有价值。

以下改进在 d24/

5B 规模下被证明无效或性价比极低Multi-token Prediction (MTP)近期很火的方向但在该实验中MTP 增加了 13GB 的显存占用却没有带来明显的性能收益。

FP8 for lm_head这是一个反直觉的结果。

虽然通常认为量化能省显存但在 Karpathy 的代码里FP8 反而导致显存增加了 2GB且训练速度仅提升 1%。

考虑到实现的复杂度投入产出比极低。

Varlen AttentionBOS-aligned 的数据加载器已经部分解决了边界问题变长注意力的引入并未带来显著提升。

Bigram Embeddings虽然有效但会显著增加参数量和复杂度最终被弃用。

其他Skip connections、复杂的 Batch Size Schedule、Hyperball/MuonH 等尝试均未在这个规模上生效。

复现与思考73美元训练出的模型效果究竟如何Karpathy 展示了部分生成样例〓仅需 3 小时训练NanoChat 已具备准确的常识问答能力Karpathy 提供了完整的训练脚本。

如果你手头有 8xH100 资源可以直接使用以下命令复现 d24 模型的训练过程OMP_NUM_THREADS1 torchrun --standalone --nproc_per_node8 -m scripts.base_train -- \ --depth24 \ --rund24-jan29 \ --model-tagd24_jan29 \ --device-batch-size16 \ --sample-every-1 \ --save-every-1 \ --core-metric-max-per-task-1 \ --core-metric-every3000 \ --target-param-data-ratio12即便没有 H100 集群开发者也可以通过调整 --depth12 在消费级显卡上验证上述优化思路。

73 美元复现 GPT-2 的背后不是单一技术的突变而是对 Transformer 组件、优化器行为以及硬件特性的极致理解与压榨。

Muon 优化器的实现细节optim.py与 Value Embeddings 的设计思路建议大家直接去读源码https://github.com/karpathy/nanochat/discussions/481更多阅读#投稿通道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。

总有一些你不认识的人知道你想知道的东西。

PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。

我们的目的只有一个让知识真正流动起来。

稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

Wan2.1-UMT5在.NET生态中的应用：开发Windows桌面视频生成工具

核心内容摘要

基于微信小程序的铁路订票管理系统毕业设计

5B 参数的 GPT-2 需要调用 32 个 TPU v3 芯片耗时一周云端算力成本约为 43,000 美元。

04 小时成本约 73 美元即可复现这一过程。

04 小时刷新记录成本降低约 600 倍。

25851 的 CORE 得分反超了 GPT-2 的

256525。

激活与归一化的极简主义ReLU² 激活放弃了常用的 GELU转而使用 F.relu(x).square()。

且始终以 float32 计算。

Attention 效率优化Flash Attention 3采用 Native layout (B, T, H, D)。

Value EmbeddingsValue Embeddings 是本次架构中最有趣的 Trick。

v v gate * ve这一设计为 d24 模型增加了约 150M 的参数量约占总参数量的 10%但几乎没有增加 FLOPs。

0 和

1这些微小改动的叠加带来了一致的性能提升。

分层策略Karpathy 设定了一组极端的超参数值得注意AdamW仅用于 Embeddings 和标量参数。

004wte value_embedsLearning Rate 高达

3x0_lambdas设置了 beta

96通常默认

9增加了动量惯性Muon专门用于处理所有的 2D 矩阵权重Attention Projections, MLP weights。

Muon 内部机制Muon 的核心在于通过正交化更新来优化矩阵参数主要包含以下特性Polar Express 正交化使用迭代 5 次的 Polar Express 算法替代传统的 Newton-Schulz 算法强制更新量保持正交。

85 线性增加至

95。

Head 数量等所有超参均由深度推导而来极大简化了调参复杂度。

5:1。

5B 规模下被证明无效或性价比极低Multi-token Prediction (MTP)近期很火的方向但在该实验中MTP 增加了 13GB 的显存占用却没有带来明显的性能收益。

51-每日大赛--瑜伽裤-51-每日大赛--瑜伽裤应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

Wan2.1-UMT5在.NET生态中的应用：开发Windows桌面视频生成工具

核心内容摘要

基于微信小程序的铁路订票管理系统毕业设计

5B 参数的 GPT-2 需要调用 32 个 TPU v3 芯片耗时一周云端算力成本约为 43,000 美元。

04 小时成本约 73 美元即可复现这一过程。

04 小时刷新记录成本降低约 600 倍。

25851 的 CORE 得分反超了 GPT-2 的

256525。

激活与归一化的极简主义ReLU² 激活放弃了常用的 GELU转而使用 F.relu(x).square()。

且始终以 float32 计算。

Attention 效率优化Flash Attention 3采用 Native layout (B, T, H, D)。

Value EmbeddingsValue Embeddings 是本次架构中最有趣的 Trick。

v v gate * ve这一设计为 d24 模型增加了约 150M 的参数量约占总参数量的 10%但几乎没有增加 FLOPs。

0 和

1这些微小改动的叠加带来了一致的性能提升。

分层策略Karpathy 设定了一组极端的超参数值得注意AdamW仅用于 Embeddings 和标量参数。

004wte value_embedsLearning Rate 高达

3x0_lambdas设置了 beta

96通常默认

9增加了动量惯性Muon专门用于处理所有的 2D 矩阵权重Attention Projections, MLP weights。

Muon 内部机制Muon 的核心在于通过正交化更新来优化矩阵参数主要包含以下特性Polar Express 正交化使用迭代 5 次的 Polar Express 算法替代传统的 Newton-Schulz 算法强制更新量保持正交。

85 线性增加至

95。

Head 数量等所有超参均由深度推导而来极大简化了调参复杂度。

5:1。

5B 规模下被证明无效或性价比极低Multi-token Prediction (MTP)近期很火的方向但在该实验中MTP 增加了 13GB 的显存占用却没有带来明显的性能收益。

51-每日大赛--瑜伽裤-51-每日大赛--瑜伽裤应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐