导师严选!千笔AI,好评如潮的AI论文网站

核心内容摘要

深求·墨鉴OCR测评:识别精度与美学体验双丰收
DelayedQueue深度探索:从问题根源到解决方案

无线通信工程师必看:CPM调制在LoRa与卫星通信中的5个典型应用案例

下面把Llama 3(arXiv:

2407.

里所有“scaling law(尺度律)”相关的:常数、公式、推理流程、结论按论文原文顺序完整梳理出来(并标明出处)。

我会用高中生能理解的数学方式写清楚“它在做什么、为什么这么做、最后得到什么”。

论文里“scaling law”用来解决的两个问题论文明确说他们做 scaling laws 主要为两件事:给定预训练算力预算 ©,决定旗舰模型应当“多大”(模型规模/参数量)以及应当训练多少 tokens。

不只预测“下一个词的损失(loss)”,还要预测下游任务的准确率(例如 ARC Challenge)。

为此他们用了“两段式”相关性拟合:先 (C\rightarrow) NLL,再 NLL (\rightarrow) Accuracy。

另外,论文还说他们用同样的 scaling law 方法来挑选预训练 data mix(数据配比)。

Scaling law 实验里出现的“常数/设定”(论文给出的固定数字)这些是“做出 scaling law 曲线”所用的实验范围与训练配方参数(你问的“常数”里,这些都属于论文明确写死/给出的数值)。

1 训练算力与模型规模范围(实验数据来源范围)

9·1视频学生视频官方正版-9·1视频学生视频官方正版应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123