首页速度优化《真刀实干》李蕾丽：一部让你热血沸腾的史诗，无需网络，随时随地尽享震撼！

网站优化

探索“色97”的无限可能：一场颠覆感官的色彩盛宴

脑洞大开！“坤坤塞桃子”的背后，藏着怎样的次元奥秘？

2026-06-12 10:09:14

阅读时长:7分钟

562次阅读

核心内容摘要

扑克：一场智力与激情的“剧烈运动”

想象一下向量就像一支箭头它有方向箭头指向哪里也有长度箭头有多长。

比如在2D平面里一个向量可以表示“向右走3步再向上走4步”写成 (3,

。

这支箭头的长度也叫“模”或“范数”是多少呢用勾股定理算√(3² 4²) √(9

√25 5。

所以这个向量长度是5。

向量单位化vector normalization就是把这支箭头“缩放”成长度正好是1的箭头但方向完全不变。

这样得到的向量叫“单位向量”unit vector。

怎么做呢很简单把原向量每个分量都除以它的长度。

公式超级简单单位向量原向量 ÷ 原向量长度比如上面那个 (3,

单位向量 (3/5, 4/

(

6,

0.

长度√(

6²

8²) √(

36

0.

√1 1。

完美为什么要做单位化很多时候我们只关心方向不在乎长度大小。

比如计算两个向量“方向有多像”余弦相似度单位化后直接点积就行。

游戏/图形学里计算光照方向、速度方向只需要方向不需要具体大小。

机器学习里归一化数据让不同特征在同一尺度避免某个大数值主导结果。

这张图解释了为什么归一化有用在神经网络训练中不归一化会导致梯度更新不均匀左图椭圆归一化后变成圆右图更新更公平高效。

图片来自《线性代数不难》这张图讲的是向量单位化vector normalization把一个非零向量“缩放”成长度

但方向不变的向量单位向量。

1图里给出的核心公式单位化除以向量长度对任意二维非零向量它的单位向量单位化后的结果定义为这里的 ∥a∥ 是向量的长度L2 范数所以把它写成分量形式就是图中那样一句话理解“单位化”就是用一个正数 ∥a∥ 去除整个向量让它整体缩短或拉长到长度 1。

2图里的例子为什么变成给定先算长度再除以长度验证它确实长度为 13图中的几何意义方向不变长度变成 1图里画了两根同方向的箭头蓝色是原向量从原点指向某个点长度是 5。

绿色是单位向量方向和蓝色完全一致但更短。

并且图上用虚线画了单位圆半径为 1 的圆单位化后的向量一定落在单位圆上因为它的长度是 1。

本质上是把原向量沿着同一条射线“缩放”到单位圆边界。

所以图下面那句“单位化后长度变为 1方向不变”就是这件事。

4为什么“方向不变”一定成立因为单位化只是乘了一个正的标量乘以正数只会把向量伸缩不会旋转向量仍在同一条射线上。

如果乘的是负数会反向但单位化除以 ∥a∥ 永远是正的。

5注意零向量不能单位化如果 a0那么 ∥a∥0 就会除以 0无定义。

所以单位化前必须保证向量非零。

6推广到 n 维常见用途n 维同理常见用途你以后会经常见到把方向提取出来用表示“纯方向”计算夹角 / 相似度如余弦相似度数值稳定让不同尺度的向量“可比较”我们在这张图的基础上把“单位化”再讲深一层它不仅是“除以长度”更像是在做一个几何投影/重标定会直接引出方向、角度、余弦相似度这些你后面会反复遇到的概念。

1单位化 “只保留方向丢掉长度信息”任意非零向量都可以写成∥a∥告诉你“有多长”大小/能量/强度告诉你“朝哪个方向”方向信息所以单位化其实是在做解耦把“长度”和“方向”分开。

图里的就是2几何上单位化就是“沿射线缩放到单位圆”图里蓝箭头从原点指向点 A(3,

。

单位化后的点是你会发现它满足也就是说一定落在圆上——这就是图里那条虚线单位圆。

一句话单位化把“任意距离的点”沿着原点射线拉回到单位圆边界。

推广到 3D 就是单位球面再推广到 n 维就是单位超球面。

3为什么单位化后能直接用点积表示“夹角”点积公式如果你把两个向量都单位化这就是余弦相似度的来源值接近 1方向几乎一致值接近 0接近垂直值接近 -1方向相反所以单位化的一个超级重要用途是把“比较大小”变成“比较方向/角度”。

4用图中的例子做个“角度直觉”向量 a(3,

的方向角相对 x 轴是∘单位化后的方向角完全一样。

所以单位化不会改变角度只改变长度。

5机器学习里为什么经常要 normalizationA. 文本/向量检索embedding不同句子向量的长度可能差很多但你更关心“语义方向”→ 单位化后用余弦相似度就很自然。

B. 梯度/更新步长控制优化里有时只想沿着梯度方向走不想步长被梯度大小影响→ 用单位化的梯度做方向再单独设置步长。

C. 数据尺度统一特征尺度差异大时某些维度会“主导”距离或点积→ 做 normalization 能让比较更公平当然更常见的是对每个特征做标准化但向量级 normalization 也很常见。

6常见坑零向量不能单位化∥0∥ 会除以 0数值实现要加小量工程里常用防止极小长度导致不稳定ε 很小单位化不等于标准化单位化让整个向量长度变 1标准化standardization每个特征做减均值除方差

总结单位化就是“把向量压成长度1只留方向”超级实用的小技巧什么是余弦相似度通俗易懂版余弦相似度Cosine Similarity是一种超级常用的方法用来衡量两个向量箭头方向有多相似。

它不关心箭头的长度只看它们之间的夹角——就像判断两个人是不是“志同道合”不管谁的“步子”更大。

简单说如果两个箭头完全同方向相似度 1完全相似如果垂直没关系相似度 0如果完全反方向相似度 -1完全相反值在 -1 到 1 之间越接近1越相似。

我们就沿着这张图把余弦相似度彻底讲透它到底在“相似”什么、为什么要除以、以及怎么算。

1它到底在衡量什么余弦相似度只衡量“方向像不像”不衡量“长度像不像”。

两个向量如果方向几乎一致夹角 θ 很小就认为“相似度高”如果方向差很多夹角接近 90°就认为“不相似”如果方向相反夹角接近 180°相似度为负表示“相反/对立”这就是为什么图里画了两根箭头 A红和 B蓝中间夹角是 θ\thetaθ。

2核心定义cosine similarity cos(θ)余弦相似度的定义而几何上有一个非常关键的恒等式点积公式把它代回去所以你图右边写的那串其实就是在表达余弦相似度点积 ÷两个向量的长度乘积 cos⁡θ3为什么一定要“除以”因为点积本身会被长度强烈影响向量变长一点点积就可能变很大即便方向没变“数值也会被长度放大”除以 ∥A∥∥B∥ 的作用就是把长度因素消掉只留下角度方向。

你可以把它理解成“把 A、B 先单位化再点积”那么结论余弦相似度单位向量的点积。

4值域和直觉对应关系因为 cos⁡θ 的范围是 [−1,1]所以余弦相似度也在 [−1,1]。

1完全同方向0垂直-1完全反方向很多时候我们说“越相似越大”就是指越接近 1。

5手算一个具体例子一步一步取第1步算点积第2步算长度第3步代公式这对应夹角因为。

6一个“最容易误解”的点长度不同也能相似度1比如它们方向完全一样B 只是 A 放大 10 倍点积很大但余弦相似度这正说明余弦相似度不关心长度只关心方向。

7它为什么适合文本/embedding/检索在文本向量里句子长短、频次、模型内部缩放都会让向量长度变化很大但语义相似更接近“方向接近”所以用余弦相似度能减少“长度噪声”更稳定地比较语义。

8常见坑零向量不能算分母 ∥A∥∥B∥0余弦相似度不等于欧氏距离一个看角度一个看距离有时“长度”本身也有意义置信度/强度单位化会丢掉它——要看任务为什么单位化后点积cosθ会让很多算法更稳定因为一旦把向量都单位化点积就只剩“方向/夹角”信息把很多会让算法“飘”的因素尺度、能量、范数差异都剥掉了这样数值范围更可控、梯度更不容易爆或塌、相似度比较也更公平。

下面从“数学直觉工程”三层说明。

1点积原本混了两种东西长度 × 角度对任意向量 a,b这里有两类信息尺度∥a∥∥b∥大小、能量方向cos⁡θ夹角如果你的任务本质上是“比相似/比语义/比方向”那尺度其实是噪声有的样本向量就是容易范数大例如文本更长、图像更亮、embedding 训练漂移等它会把点积“硬拉大”导致排序或分类边界不稳定。

单位化后尺度被消掉只剩方向输出范围也被强行限制在 [−1,1]。

2数值稳定把分数“锁”在固定范围避免极端值很多算法里点积会进入softmaxexp⁡(logit)sigmoidσ(logit)hinge / margin loss基于 logit 的间隔如果 logit 是原始点积它可能非常大或非常小因为范数随训练变化、随样本变化带来两类问题A. 溢出/下溢工程层面exp⁡(

很快就数值爆炸exp⁡(−

直接变 0。

单位化后 logit 变成 cos⁡θ∈[−1,1]或再乘一个温度/尺度 s数值更好控。

B. 梯度饱和优化层面以 sigmoid 为例logit 过大时 σ≈1梯度 σ(1−σ)≈0学习变慢甚至停滞logit 过小时同理。

单位化让 logit 不会被范数无意义地推到极端训练更平滑。

3优化稳定减少“范数漂移”带来的非本质自由度在很多表示学习/对比学习/分类里模型既可以通过让角度更小方向更对来提高相似度也可以通过让范数变大向量变长来提高点积后者常常是“投机取巧”不一定让方向更好但把数值做大就能让损失下降一点点。

结果是向量范数在训练中不断膨胀norm blow-up不同 batch/不同样本的 logit 尺度乱飘学习率、正则、温度等超参数变得非常敏感单位化等于砍掉这条投机通道模型只能老老实实通过“方向对齐/分离”来优化训练通常更稳、更可复现。

这也是为什么很多方法会用 “cosine classifier / normalized embeddings”。

4比较稳定相似度排序不再被“长度”劫持检索/匹配里经常要比较如果不单位化范数大的会天然占优势即使方向没那么像。

单位化后比较的是更接近“语义角度最近”的真实目标排序更稳对输入长度、亮度、对比度等外界因素更不敏感。

5但也要知道单位化不是“必然更好”单位化会丢掉长度信息。

如果长度本身有意义比如置信度/强度/数量级强行单位化可能损失性能。

工程上常见折中是embedding 先单位化再乘一个可控尺度 s或温度这样既保留角度几何又能调节分类/对比学习的分离力度。

探索“色97”的无限可能：一场颠覆感官的色彩盛宴

核心内容摘要

扑克：一场智力与激情的“剧烈运动”

。

√25 5。

单位向量 (3/5, 4/

(

6,

长度√(

6²

8²) √(

36

√1 1。

但方向不变的向量单位向量。

。

的方向角相对 x 轴是∘单位化后的方向角完全一样。

总结单位化就是“把向量压成长度1只留方向”超级实用的小技巧什么是余弦相似度通俗易懂版余弦相似度Cosine Similarity是一种超级常用的方法用来衡量两个向量箭头方向有多相似。

很快就数值爆炸exp⁡(−

直接变 0。

9.1免费cad网站-9.1免费cad网站应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

探索“色97”的无限可能：一场颠覆感官的色彩盛宴

核心内容摘要

扑克：一场智力与激情的“剧烈运动”

。

√25 5。

单位向量 (3/5, 4/

(

6,

长度√(

6²

8²) √(

36

√1 1。

但方向不变的向量单位向量。

。

的方向角相对 x 轴是∘单位化后的方向角完全一样。

总结单位化就是“把向量压成长度1只留方向”超级实用的小技巧什么是余弦相似度通俗易懂版余弦相似度Cosine Similarity是一种超级常用的方法用来衡量两个向量箭头方向有多相似。

很快就数值爆炸exp⁡(−

直接变 0。

9.1免费cad网站-9.1免费cad网站应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐