核心内容摘要
2026最新!AI论文软件 千笔 VS speedai,研究生写作效率翻倍!
关于位置编码pos表示token位置2i和2i1表示维度下标奇偶可以看出随着i越来越接近d/2维度越来越往下位置编码的值随着位置pos变换的幅度越大(正余弦周期越大)不同维度的位置编码就是不同周期的正余弦函数。
这样可以让模型更容易感知两个词之间的间距k。
重点对于一对正余弦函数根据三角函数的加法公式sin(posk)sin(pos)cos(k)cos(pos)sin(k)cos(posk)cos(pos)cos(k)−sin(pos)sin(k)这意味着存在一个只与 k有关、与pos无关的线性变换矩阵Mk使得PE(posk)Mk⋅PE(pos)深层次解释如果我们把 PE向量中的每一对 (sin,cos)看作二维平面上的一个点你会发现随着 pos的增加这个点实际上是在这个二维子空间里做旋转运动。
上面说到的矩阵MK其实是一个旋转矩阵。
两个位置 pos和posk之间的点积本质上取决于它们之间的夹角.这种编码将位置信息编码成了相位Phase。
在 Self-Attention 计算点积时模型实际上是在衡量不同词在各个频率子空间里的相位差这意味着模型在计算注意力时即计算Q⋅KT时两个词之间的点积会包含由于相对距离 k 产生的衰减或增强信号。
模型不需要记住每个词的绝对坐标它只需要通过线性投影就能感知出“这两个词相距 k 个单位”。
这种平移不变性(Translation Invariance)对处理变长序列至关重要。