核心内容摘要
如何安全获取红米AX3000路由器的SSH权限:开启网络定制新可能
现在训练一个GPT-2级别的LLM大语言模型成本已经低于100美元。
Andrej Karpathy的个人项目nanochat迎来重大更新。
现在训练一个GPT-2级别的LLM大语言模型成本已经低于100美元。
具体来说在单个8XH100节点上仅需3小时花费约73美元。
Karpathy直言GPT-2是他最喜欢的LLM因为它是LLM技术栈首次以现代形式整合在一起的标志。
这也成了他某种“奇怪且持久的执念”利用过去7年的技术进步以极低的成本将模型训练到GPT-2的能力水平。
他一直怀疑如今要在100美元以内实现这一目标完全是可行的。
而现在的nanochat做到了7年600倍的成本缩减让我们把时间拨回2019年。
当时OpenAI为了训练GPT-2使用了32个TPU v3芯片耗时168小时整整7天。
按照当时每小时8美元的TPU价格计算总成本约为
3万美元那个模型在CORE评分DCLM论文提出的一种综合指标涵盖ARC/MMLU等22项评估上得分为
256525现如今随着nanochat合并了一系列改进许多源自modded-nanogpt仓库Karpathy在单个8XH100节点上仅用
04小时约73美元就达到了更高的CORE评分这不仅仅是快了更是省了。
这是一次跨越7年的600倍成本降低。
换算下来训练GPT-2的成本大约每年下降
5倍。
Karpathy认为这个数字可能还是被低估了。
因为他目前仍在定期发现更多的改进空间手头还有一个充满想法的积压清单等待尝试。
核心优化技术栈为了达到这个效果Karpathy列出了几项“开箱即用”且效果立竿见影的关键改进Flash Attention 3 kernels速度更快并且允许使用window_size参数来获得交替的注意力模式。
Muon 优化器Karpathy表示自己曾尝试花了一天时间去掉它只用AdamW但没能成功Muon不可或缺门控残差路径和跳跃连接由可学习的标量进行门控Value Embeddings值嵌入当然还有许多较小的优化叠加在一起产生了最终的效果。
“通往GPT-2”排行榜受modded-nanogpt的启发Karpathy还专门创建了一个“通往GPT-2时长”time to GPT-2的排行榜。
目前这个首发的“Jan29”模型以
04小时的成绩位列榜首。
Karpathy希望nanochat能成长为一个非常精简且经过调试的实验性LLM工具用于原型设计、娱乐当然还有学习。
他对此充满期待并欢迎大家一起来迭代。
关于优化的详细细节和复现指南Karpathy已在GitHub上发布了详细的长文。
他还放出了一张推导当前nanochat模型系列Scaling Laws缩放定律的图表并称之为“令人满意的视觉糖果”Github讨论页指路https://github.com/karpathy/nanochat/discussions/481