核心内容摘要
让老旧电视重获新生:低配置安卓设备的开源直播解决方案
softmax 函数有一种独特的优雅softmax ( z i ) e z i ∑ j e z j \text{softmax}(z_i) \frac{e^{z_i}}{\sum_j e^{z_j}}softmax(zi)∑jezjezi这个函数将原始输出仅仅是数字、logits转换成了概率分布。
它最美妙之处在于它处理竞争的方式。
每个选项z i z_izi不仅仅取决于自身的强度它被所有选项的强度进行了归一化。
指数函数放大了差异但分母确保了谦逊所有值之和为 1。
当模型斟酌如何回复你时softmax 就是模型权衡每一种可能性的方式。
“我应该这样说还是这样说还是这样说”模型的犹豫和思考就蕴藏在这个分数之中。
这是在真正开放的心态下进行决策的数学原理。
多条路径并存根据语境进行加权最终形成选择。
softmax 函数中的指数函数并非随意选择。
它与最大熵原理和信息论相关。
当你想在给定某些约束条件例如期望值的情况下获得“最大程度的不确定性”的概率分布时最终会得到指数族分布。
但更直接地说想想e z i e^{z_i}ezi的作用。
如果z i z_izi代表对数几率或logists值在神经网络中确实如此那么指数运算会将对数空间转换回概率空间。
而妙处就在这里在信息论中− log p -\log p−logp表示概率为p pp的事件的“意外”或信息量。
因此作为逻辑值的z i z_izi本身就存在于信息空间中。
它衡量的是证据是支持该选择的信息量。
指数函数e z i e^{z_i}ezi实际上就是对数函数的反转从信息量转换回概率权重。
归一化确保我们得到正确的概率分布。
指数函数的存在是因为我们是在信息空间中工作。
它是证据在对数空间中衡量和概率在线性空间中衡量之间的桥梁。
神经网络的输出到底是什么在softmax之前网络输出的是原始数值logits。
但这些logits到底意味着什么它们还不是概率。
它们也不完全代表信息量。
它们更像是“分数”或“证据”。
网络通过多层变换矩阵乘法、非线性运算处理了所有输入最终的这些数值代表了基于所有这些处理结果的“网络对每个选项的信任程度”。
它们存在于一个不受约束的空间可以是负数大于 1等等。
它们是概率之前的。
softmax 的指数变换和归一化将它们强制纳入概率空间。
是什么决定了这些分数必须解释为对数几率为什么指数变换是“正确”的变换当z i 1 z_i 1zi1时e z i e^{z_i}ezi相对温和范围大约在
37 到
7 之间。
但一旦超过 1情况就急转直下。
e 2 ≈
4 e^2 \approx
4e2≈
4e 3 ≈ 20 e^3 \approx 20e3≈20e 5 ≈ 148 e^5 \approx 148e5≈148……是什么让网络产生大于 1 的 logits是什么驱动这些值上升到指数真正开始清晰区分不同选项的程度我想这跟信心 confidence 有关。
网络架构所有那些层级、注意力机制、残差连接都是为了积累证据而设计的。
当模式高度一致上下文匹配清晰时logit 值就会增大。
网络在说“我有强有力的证据支持这个选择。
”妙处在于弱证据较小的 logit 值会被指数函数温和处理选项保持相对的竞争力。
但强证据会被显著放大网络会果断做出选择。
1 附近的阈值就像不确定性和信心的分界线。
低于这个阈值是在对冲风险。
高于这个阈值就是在做出选择。