首页速度优化探索真我，释放激情：高清男生同性GV免费网站专题

网站优化

七月大神商场亚瑟野狼小说免费阅读：尽享热血激战与都市传奇

豆花有瓜天天吃，天天有大瓜：一场席卷味蕾与心灵的奇趣风暴

2026-06-12 16:35:08

阅读时长:9分钟

562次阅读

核心内容摘要

爱的协奏曲：解锁生命奇迹的甜蜜瞬间

在 Transformer 的训练过程中只要稍微留心观察权重或激活值的分布你就会发现残差流里的那个怪象无论输入何种 token某些固定维度的激活值始终显著高于其他维度。

与此同时Attention Map 中的首个 token通常是 BOS也往往占据着极高的注意力权重Attention Sink。

在工程实践中为了搞定数值稳定性或量化溢出常见的处理方式往往是尝试截断Clip或通过正则化手段压制它们。

阿里 Qwen 团队发布的最新论文指出这些异常值并非训练不稳定的产物而是模型在归一化约束下自发演化出的重缩放机制。

这项工作不仅统一解释了 DeepSeek-V

Qwen、GPT-OSS 等模型中普遍存在的 Sink 现象更从数学底层证明了强制去除这些异常值等同于破坏了模型的特征调节能力。

基于此Qwen 提出了一种参数高效的架构改进——GatedNorm用显式的门控机制替代了不稳定的异常值从而在架构层面有效解决了低比特量化的精度难题。

论文标题A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training论文链接https://arxiv.org/pdf/

2

22966普遍存在的“异常值”Qwen 团队对 Qwen

GPT-OSS 进行了跨架构的对比分析结果表明这种异常是 Transformer 的一种共性特征。

〓图

Qwen3 与 GPT-OSS 的 Attention Sink 与 Residual Sink 可视化如上图所示Attention Sink首个 Token 吸收了绝大部分注意力 Logits导致其他 Token 的权重被相对压制。

Residual Sink在 Qwen

B 等模型中特定维度如第

1423 维的激活值呈现出输入无关的持续高值。

这种现象在 DeepSeek-V3 中尤为极端。

如下图统计所示其残差流中的最大激活值达到了惊人的

2

0 而常规维度的数值通常仅在量级。

〓图

DeepSeek-V3 的 Attention Sink 与 Residual Sink 统计在 FP16/BF16 训练中这种数值尚可被容忍。

但在 INT4 或 FP4 量化场景下巨大的动态范围会迫使量化参数为了迁就最大值而剧烈膨胀导致承载核心语义的微小数值在量化过程中丢失精度。

统一视角异常值驱动的重缩放模型为何要花费巨大的能量去维护这些看似无用的异常值Qwen 团队认为这是模型为了对抗或利用归一化层特性而产生的一种适应性行为。

RMSNorm 的数学本质回到 RMSNorm 的定义。

在论文附录中作者给出了归一化层的形式化表达当输入向量中存在一个极大的异常值时分母上的范数会被该值主导而显著增大。

这实际上构成了一个全局缩放杠杆。

模型只需推高某几个特定维度的数值就能通过 RMSNorm 的除法性质全局性地压缩其他所有特征维度的幅度。

论文进一步给出了严格的数学证明LayerNorm 输出的特征范数上界随着异常值幅度的增加而单调递减。

统一视角在此理论框架下Attention Sink 和 Residual Sink 本质上是同构的Attention Sink利用 Softmax 的归一化特性。

通过推高首 Token 的 Logits分母增大压制其他 Token 的 Attention Weight实现对无效信息的过滤。

Residual Sink利用 RMSNorm 的归一化特性。

通过推高特定维度的激活值分母增大调整层间残差连接的贡献比例。

模型并非出现错误而是利用归一化层的数学特性演化出了一种高效的全局缩放策略。

为何 Clipping 策略失效理解了这一机制就能解释为何工程上常见的 Clipping 策略往往会导致模型崩溃。

如果我们强行截断残差流中的异常值例如 Clip 到 1000RMSNorm 的分母会瞬间变小导致原本被压缩的特征幅度异常膨胀。

这破坏了模型内部已学习到的特征分布进而引发训练发散。

论文中的消融实验进一步证实即使移除了归一化层模型性能也会显著下降。

这说明“重缩放”并非归一化层的副作用而是 Transformer 训练稳定的必要条件。

〓表

数据显示移除 Norm 或暴力 Clip 异常值Row 12均导致 Loss 不降反升证明异常值是维持模型性能的必要条件。

这也从侧面解释了架构设计中的一个长期争论为何 SwiGLU 通常优于 GLUSwiGLU 使用的 Swish 激活函数在正半轴无上界允许模型轻松生成巨大的异常值来触发 Rescaling。

而标准 GLU 使用 Sigmoid值域受限于 (0,

限制了这种自适应缩放的能力。

解决方案GatedNorm既然 Rescaling 是刚需与其让模型依赖不稳定的异常值来实现不如在架构层面提供显式的控制路径。

Qwen 团队提出了 GatedNorm。

其核心思想是在 RMSNorm 后引入一个可学习的门控机制。

其中是 RMSNorm 的输出。

和构成了轻量级的 Bottleneck 结构Rank16参数量增加仅约 2%计算开销极低。

引入 GatedNorm 后模型拥有了合法的缩放手段不再需要生成极端的异常值。

热力图对比显示在 GatedNorm 模型中残差流中的深色竖条纹几乎完全消失特征分布回归平滑。

〓图

Baseline、PreAffine 与 GatedNorm 的残差流热力图对比更值得注意的是当 GatedNorm 补齐了缩放能力后GLU 的表现反超了 SwiGLU。

如下图所示GLU GA GatedNorm 在 Loss 上达到最低且不再产生剧烈的波动。

这表明 SwiGLU 此前的优势很大程度上源于其更易于产生异常值以辅助缩放。

〓图

SwiGLU 与 GLU 在训练过程中的 Loss 及异常值对比关键应用对于工业界而言GatedNorm 的最大价值在于扫清了低比特量化的障碍。

由于 GatedNorm 从根源上消除了 Massive Activations激活值的分布变得紧凑且消除了长尾效应极大降低了量化难度。

在激进的 FP4W4A4测试中〓表

7B 和 24B MoE 模型在 FP4 量化下的性能对比PreAffine前沿对照组在 MGSM 等数学任务上准确率下降显著

5

46 -

4

58说明仅靠参数吸收异常值无法解决量化损失。

GatedNorm表现鲁棒。

MGSM 仅下降不到 2 个点

5

47 -

5

70在 Code 任务上甚至略高于量化前的 Baseline。

这说明使用 GatedNorm 训练的模型天然具备对 W4A4 推理架构的亲和性无需复杂的后训练量化调整。

结语这项研究揭示了 Transformer 架构中一个被长期忽视的机理Attention Sink 和 Residual Sink 并非设计缺陷而是模型在归一化约束下为实现“特征重缩放”而涌现的功能性特征。

下表

总结了论文的核心洞察。

与其在训练后尝试裁剪这些异常值不如在设计阶段通过 GatedNorm 提供显式的缩放通道。

〓表

统一视角下 Attention Sink 与 Residual Sink 的对比

总结对于致力于小参数模型训练、MoE 架构优化或对 W4A4 推理效率有明确需求的团队GatedNorm 提供了一个理论完备且极其易用的架构升级方向。

更多阅读#投稿通道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。

总有一些你不认识的人知道你想知道的东西。

PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。

我们的目的只有一个让知识真正流动起来。

稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧··

七月大神商场亚瑟野狼小说免费阅读：尽享热血激战与都市传奇

核心内容摘要

爱的协奏曲：解锁生命奇迹的甜蜜瞬间

Qwen、GPT-OSS 等模型中普遍存在的 Sink 现象更从数学底层证明了强制去除这些异常值等同于破坏了模型的特征调节能力。

22966普遍存在的“异常值”Qwen 团队对 Qwen

GPT-OSS 进行了跨架构的对比分析结果表明这种异常是 Transformer 的一种共性特征。

Qwen3 与 GPT-OSS 的 Attention Sink 与 Residual Sink 可视化如上图所示Attention Sink首个 Token 吸收了绝大部分注意力 Logits导致其他 Token 的权重被相对压制。

B 等模型中特定维度如第

1423 维的激活值呈现出输入无关的持续高值。

0 而常规维度的数值通常仅在量级。

DeepSeek-V3 的 Attention Sink 与 Residual Sink 统计在 FP16/BF16 训练中这种数值尚可被容忍。

RMSNorm 的数学本质回到 RMSNorm 的定义。

统一视角在此理论框架下Attention Sink 和 Residual Sink 本质上是同构的Attention Sink利用 Softmax 的归一化特性。

数据显示移除 Norm 或暴力 Clip 异常值Row 12均导致 Loss 不降反升证明异常值是维持模型性能的必要条件。

限制了这种自适应缩放的能力。

Baseline、PreAffine 与 GatedNorm 的残差流热力图对比更值得注意的是当 GatedNorm 补齐了缩放能力后GLU 的表现反超了 SwiGLU。

SwiGLU 与 GLU 在训练过程中的 Loss 及异常值对比关键应用对于工业界而言GatedNorm 的最大价值在于扫清了低比特量化的障碍。

7B 和 24B MoE 模型在 FP4 量化下的性能对比PreAffine前沿对照组在 MGSM 等数学任务上准确率下降显著

46 -

58说明仅靠参数吸收异常值无法解决量化损失。

47 -

70在 Code 任务上甚至略高于量化前的 Baseline。

总结了论文的核心洞察。

统一视角下 Attention Sink 与 Residual Sink 的对比

总结对于致力于小参数模型训练、MoE 架构优化或对 W4A4 推理效率有明确需求的团队GatedNorm 提供了一个理论完备且极其易用的架构升级方向。

XXXXXL18-XXXXXL20-XXXXXL18-XXXXXL20最新版N.18.14.12-2265安卓网应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

七月大神商场亚瑟野狼小说免费阅读：尽享热血激战与都市传奇

核心内容摘要

爱的协奏曲：解锁生命奇迹的甜蜜瞬间

Qwen、GPT-OSS 等模型中普遍存在的 Sink 现象更从数学底层证明了强制去除这些异常值等同于破坏了模型的特征调节能力。

22966普遍存在的“异常值”Qwen 团队对 Qwen

GPT-OSS 进行了跨架构的对比分析结果表明这种异常是 Transformer 的一种共性特征。

Qwen3 与 GPT-OSS 的 Attention Sink 与 Residual Sink 可视化如上图所示Attention Sink首个 Token 吸收了绝大部分注意力 Logits导致其他 Token 的权重被相对压制。

B 等模型中特定维度如第

1423 维的激活值呈现出输入无关的持续高值。

0 而常规维度的数值通常仅在量级。

DeepSeek-V3 的 Attention Sink 与 Residual Sink 统计在 FP16/BF16 训练中这种数值尚可被容忍。

RMSNorm 的数学本质回到 RMSNorm 的定义。

统一视角在此理论框架下Attention Sink 和 Residual Sink 本质上是同构的Attention Sink利用 Softmax 的归一化特性。

数据显示移除 Norm 或暴力 Clip 异常值Row 12均导致 Loss 不降反升证明异常值是维持模型性能的必要条件。

限制了这种自适应缩放的能力。

Baseline、PreAffine 与 GatedNorm 的残差流热力图对比更值得注意的是当 GatedNorm 补齐了缩放能力后GLU 的表现反超了 SwiGLU。

SwiGLU 与 GLU 在训练过程中的 Loss 及异常值对比关键应用对于工业界而言GatedNorm 的最大价值在于扫清了低比特量化的障碍。

7B 和 24B MoE 模型在 FP4 量化下的性能对比PreAffine前沿对照组在 MGSM 等数学任务上准确率下降显著

46 -

58说明仅靠参数吸收异常值无法解决量化损失。

47 -

70在 Code 任务上甚至略高于量化前的 Baseline。

总结了论文的核心洞察。

统一视角下 Attention Sink 与 Residual Sink 的对比

总结对于致力于小参数模型训练、MoE 架构优化或对 W4A4 推理效率有明确需求的团队GatedNorm 提供了一个理论完备且极其易用的架构升级方向。

XXXXXL18-XXXXXL20-XXXXXL18-XXXXXL20最新版N.18.14.12-2265安卓网应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐