核心内容摘要
17c黑料事件真相揭秘:流量狂欢背后的重重迷雾与人性博弈
下面把Llama 3(arXiv:
2407.
里所有“scaling law(尺度律)”相关的:常数、公式、推理流程、结论按论文原文顺序完整梳理出来(并标明出处)。
我会用高中生能理解的数学方式写清楚“它在做什么、为什么这么做、最后得到什么”。
论文里“scaling law”用来解决的两个问题论文明确说他们做 scaling laws 主要为两件事:给定预训练算力预算 ©,决定旗舰模型应当“多大”(模型规模/参数量)以及应当训练多少 tokens。
不只预测“下一个词的损失(loss)”,还要预测下游任务的准确率(例如 ARC Challenge)。
为此他们用了“两段式”相关性拟合:先 (C\rightarrow) NLL,再 NLL (\rightarrow) Accuracy。
另外,论文还说他们用同样的 scaling law 方法来挑选预训练 data mix(数据配比)。