首页速度优化孟若羽《天美》MV惊艳来袭，一场视觉与听觉的极致盛宴

网站优化

44444电视剧在线观看：解锁你的追剧新姿势，精彩永不落幕！

vicineko捕捉二次元的灵魂，定格心动的瞬间_1

2026-06-08 20:00:35

阅读时长:5分钟

562次阅读

核心内容摘要

窥探灵魂的镜子：人体艺术摄影的极致之美

现在训练一个GPT-2级别的LLM大语言模型成本已经低于100美元。

Andrej Karpathy的个人项目nanochat迎来重大更新。

现在训练一个GPT-2级别的LLM大语言模型成本已经低于100美元。

具体来说在单个8XH100节点上仅需3小时花费约73美元。

Karpathy直言GPT-2是他最喜欢的LLM因为它是LLM技术栈首次以现代形式整合在一起的标志。

这也成了他某种“奇怪且持久的执念”利用过去7年的技术进步以极低的成本将模型训练到GPT-2的能力水平。

他一直怀疑如今要在100美元以内实现这一目标完全是可行的。

而现在的nanochat做到了7年600倍的成本缩减让我们把时间拨回2019年。

当时OpenAI为了训练GPT-2使用了32个TPU v3芯片耗时168小时整整7天。

按照当时每小时8美元的TPU价格计算总成本约为

3万美元那个模型在CORE评分DCLM论文提出的一种综合指标涵盖ARC/MMLU等22项评估上得分为

256525现如今随着nanochat合并了一系列改进许多源自modded-nanogpt仓库Karpathy在单个8XH100节点上仅用

04小时约73美元就达到了更高的CORE评分这不仅仅是快了更是省了。

这是一次跨越7年的600倍成本降低。

换算下来训练GPT-2的成本大约每年下降

5倍。

Karpathy认为这个数字可能还是被低估了。

因为他目前仍在定期发现更多的改进空间手头还有一个充满想法的积压清单等待尝试。

核心优化技术栈为了达到这个效果Karpathy列出了几项“开箱即用”且效果立竿见影的关键改进Flash Attention 3 kernels速度更快并且允许使用window_size参数来获得交替的注意力模式。

Muon 优化器Karpathy表示自己曾尝试花了一天时间去掉它只用AdamW但没能成功Muon不可或缺门控残差路径和跳跃连接由可学习的标量进行门控Value Embeddings值嵌入当然还有许多较小的优化叠加在一起产生了最终的效果。

“通往GPT-2”排行榜受modded-nanogpt的启发Karpathy还专门创建了一个“通往GPT-2时长”time to GPT-2的排行榜。

目前这个首发的“Jan29”模型以

04小时的成绩位列榜首。

Karpathy希望nanochat能成长为一个非常精简且经过调试的实验性LLM工具用于原型设计、娱乐当然还有学习。

他对此充满期待并欢迎大家一起来迭代。

关于优化的详细细节和复现指南Karpathy已在GitHub上发布了详细的长文。

他还放出了一张推导当前nanochat模型系列Scaling Laws缩放定律的图表并称之为“令人满意的视觉糖果”Github讨论页指路https://github.com/karpathy/nanochat/discussions/481

黄金软件免费下载大全-黄金软件免费下载大全应用

相关标签

岁月流金：品味中国老太太的别样风韵唐人社十次大导航升级：一场用户体验的颠覆式进化 18岁，遇见AI，开启无限可能亚洲第一“污”站：不止于“污”，更是文化的聚集地探索视界新维度：欧美精产与国品一二三的融合盛宴色吆吆：一触即发，点燃你的心动时刻 140 渴望那份精彩？“想要XX在线观看”的终极指南，一站式满足你的所有期待！探索“一级A片”的艺术殿堂：不止于视觉的感官盛宴寻找城市灵魂的归宿：在天伦8社区，重新定义“生活”的深度与温度 17c20cm：不止于尺寸，更是品味的象征跨越国界的感官艺术：欧美熟女的丰盈美学与极致视听盛宴告别廉价的感动：在极致唯美的意境里，重塑“成年人”的视觉私语唤醒感官，探索无限：AAA影片的奇幻之旅

LaTeX文档中的AnythingtoRealCharacters2511生成结果展示技巧

2026-06-08 20:00:35 9分钟阅读

【必读】Agent Skills到底是什么？与Tool和MCP的关系深度解析，收藏这篇不再被概念忽悠

Flux.1-Dev深海幻境持续集成：使用GitHub Actions自动化模型测试与部署

2026-06-08 20:00:35 8分钟阅读

告别课堂投屏“社死”：教学场景下的视频播放器选型与 ZWPlayer 深度测评**

智能微信助手：全场景适配的消息自动化管理解决方案

2026-06-08 20:00:35 8分钟阅读

44444电视剧在线观看：解锁你的追剧新姿势，精彩永不落幕！

核心内容摘要

窥探灵魂的镜子：人体艺术摄影的极致之美

3万美元那个模型在CORE评分DCLM论文提出的一种综合指标涵盖ARC/MMLU等22项评估上得分为

256525现如今随着nanochat合并了一系列改进许多源自modded-nanogpt仓库Karpathy在单个8XH100节点上仅用

04小时约73美元就达到了更高的CORE评分这不仅仅是快了更是省了。

5倍。

04小时的成绩位列榜首。

黄金软件免费下载大全-黄金软件免费下载大全应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

44444电视剧在线观看：解锁你的追剧新姿势，精彩永不落幕！

核心内容摘要

窥探灵魂的镜子：人体艺术摄影的极致之美

3万美元那个模型在CORE评分DCLM论文提出的一种综合指标涵盖ARC/MMLU等22项评估上得分为

256525现如今随着nanochat合并了一系列改进许多源自modded-nanogpt仓库Karpathy在单个8XH100节点上仅用

04小时约73美元就达到了更高的CORE评分这不仅仅是快了更是省了。

5倍。

04小时的成绩位列榜首。

黄金软件免费下载大全-黄金软件免费下载大全应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐