核心内容摘要
深夜的绝对自由:探索“成人免费观看高清影视”的感官新维度
线性回归与损失函数举个例子图片来自于b站耿直哥丶比如父亲和儿子的身高存在某种关系这些父亲和儿子身高的数据画在二维坐标系上就是一堆点那么我们可不可以从这堆数据中找到一个准确的数学模型来预测一个人的身高呢这就是统计学中经典的回归问题。
而我们要找个的这个预测模型在统计学中就被称为是预测函数假设它是条直线这就叫做线性回归。
那么问题是该怎么找到这个呢这个时候我们就要用到最小二乘法其核心思想就是用预测值yhat和实际值y之间的误差e来作为评判标准误差最小时就是最佳拟合。
为了方便解释原理我们选用只有一个参数的直线方程作为预测函数数学模型以某个数据点为例误差e 预测值yhat - 实际值y在坐标系中就是点与直线的竖直距离可是有的点在直线上面有的在直线下面有正有负如果把各个点的误差直接相加可以会相互抵消所以我们对误差取平方这样①不仅可以消除正负号的影响②还可以放大主要误差差值1平方后更大③缩小不必要误差差值1平方后更小将所有数据点误差平方加起来求平均这就是所谓的均方差把右边误差代入展开并把求和符号放入因为样本数据量和所有坐标、都是已知的代入后都是常数除了用常数a、b表示后式子即可化为最后一行。
而我们最后得到的关于误差的函数就是我们要的代价损失函数此时自变量不再是而是因变量也变成了误差。
这个函数怎么用此时自变量是预测函数的直线斜率因变量是均方误差是一个抛物线它和预测函数的关系是在抛物线上移动减小均方误差随着越来越小预测函数直线会越来越靠近数据点当到达抛物线最低点也就是均方误差最小时左侧预测函数就达到了对数据点的最理想拟合
总结来说机器学习的目标就是找到代价函数的最小值从而确定出具体的预测函数。
这整个过程就是最小二乘法。
而我们的代价函数也不止抛物线这一种形式当预测函数不止有一个未知量而是时此时需要调整的参数就变成了两个此时对应的代价函数就不再是抛物线而是一个三维空间中的抛物面两个自变量、不过我们的目标没有变依然是找到该代价函数的最小值也就是抛物面的最低点此时最小值所对应的自变量点就是我们要找的来实现预测函数对数据的最优拟合。
当然最小二乘法并不只局限于来确定线性预测函数的参数也可以用曲线来拟合数据点而且对于同一组数据选用不同的预测函数通过最小二乘法可以得到不同的拟合曲线对应的代价函数也多种多样代价函数甚至时超曲面高于三维但原理是不变的都是找代价函数的最小值点找到了该点所在的的自变量坐标就是我们要求的预测函数的具体参数。
现在我们已经明白了什么是代价函数。
可是有了代价函数怎么让机器自己去找最小值这就涉及到了梯度下降算法。
先看一个例子图片参考来自b站智能派Onlnt给定一个函数求出一阶导数为二阶导数为2大于0所以函数图像是一个凹函数小凸大凹存在最小值。
令一阶导数0求出代入原函数得到这样我们就求出了最小值的解析解。
得到了这个精准的结果我们就可以以它为参考来研究梯度下降是如何一步步去逼近函数的最小值的。
先随机选一个比如带回原函数得到这样就完成了初始化而此时显然不是最小值。
我们再选一个这次就不能随机选了我们希望沿着曲线下坡的方向向左移动到比5小的位置才可以逼近最小值。
首先要确定下坡的方向是一元函数参数只有左右两个移动方向右侧是导数方向因为要下坡所以要取导数的反方向对应多元函数中梯度的反方向是下降最快的这样x1x0 - 一阶导数求出x
把x
代入fx得到f(x
23这里就有问题了移动x以后f(x)的值并没有减小而是保持不变如果继续选用同样的办法继续迭代会反复在x5和-4之间震荡而函数值始终是23保持不变所以我们在迭代公式中引入一个参数α来调整每次移动的距离上面的例子相当于α1数学的文献里叫步长机器学习里叫做学习率我们取α
2代入迭代公式得到x
1
2在图上就移动到了x
2f(x)
1
04的位置持续迭代x向最小值逼近f(x)同步减小直到x
1
504时得到f(x)
75此时已经很接近最小值了可以停止迭代。
而算法是根据导数的绝对值来判断收敛的随着迭代导数的绝对值也在同步变小我们设当导数的绝对值
01时判定收敛在x14处导数值为
007满足条件停止迭代。
这样就求出了最小值的数值解
75这是二维平面迭代过程的例子现在我们来看三维曲面迭代的过程。
我们假设代价函数为对自变量x、y求偏导得到梯度为了方便标注我们使用平面俯视图现在用梯度下降求最小值第一步初始化取(x0y
(5,
,f(w)55取梯度的反方向即为函数变小最快的方向。
和第一个例子相比迭代公式里的x换成了w这里的w代指自变量xy一阶导数换成了梯度学习率设为
1开始反复迭代找最小值点过程如下如何判断收敛我们不会直接看“梯度矢量的每个分量是否趋近于0”而是看梯度的模是否小于某个极小阈值第一个例子因为是二维用的是导数的绝对值判断收敛导数是标量绝对值符号为单竖线而梯度是向量二维的绝对值推广到高维就是范数也就是向量的模标量是双竖线物理意义梯度的模表示“函数在该点变化率的最大值”。
如果模很小说明函数在该点的“上升/下降速度”已经非常缓慢接近极值点此时再迭代参数损失函数的变化也会很小。
随着迭代梯度的范数在同步减小我们设梯度的范数小于
001时判定为收敛在第31次时满足条件停止迭代。
这样就求出了最小值的数值解在时得到函数最小值梯度下降的定义给定一个函数对梯度进行迭代得到函数最小值的优化算法就是梯度下降算法。
最后我们来看一下原理梯度公式肯定不是一拍脑袋就有的它是怎么来的如果函数在这个点的各阶导数都存在泰勒公式的原理就有点类似与极限的定义对泰勒公式等式两边求导不管是几阶导数将代入等式两边总能相等。
想一想就像左边是城市北京而对两边无论求导多少次等式都成立就相当于告诉我们右侧这个陌生的地方的每一粒沙子都和北京这个城市的沙子一样那么此时这二者就是完全等同的右侧的无穷项展开也是北京。
取其中一阶导数的部分就是泰勒级数的一阶展开式。
在一个小邻域内此时与一阶展开式就是可以完全相等。
因为泰勒展开项的项数越多对的模仿就越完美而在一个小邻域内二者已经没有任何差别了因为区间足够小。
而对于一个多元函数导数变成了x和y轴的偏导数写在一起就是梯度这是梯度的定义。
分母中0和1的阶乘都是1梯度下降时要从移动到我们把代入因为在泰勒公式中是已知点可以通过已知点去求出未知点的值而在梯度下降中我们是已知想求的值所以这样代入同时这里要注意和其实代表的是一个坐标。
先看等式左边差值为负数所以右边的乘积也是负数而▲w是一个向量两个点坐标的差可以写成模长×单位向量▲what代入不等式同时▲w的模是一个大于0的标量所以要实现不等式小于0一定是另外两项的乘积小于0而我们的目的是想让函数值下降得最多、最快也就是二者的乘积结果尽量小且结果为负数那么此时这两个向量一定是共线且反向所以▲what是一个方向和梯度向量相反的向量同时也说明了▲w也是一个方向和梯度向量相反的向量因为▲what本就是▲w的单位向量二者方向一致只是模长不同我们取梯度的单位向量加上负号取反方向最后再乘上▲w的模就得到了向量▲w的具体表达式而▲ww_t1-w_t将其代入再把等号右边整理下再把w_t移到等号右边设▲w的模比上梯度的模为α也就是学习率由于这两个模都是大于0的标量所以学习率α也是大于0的标量到此我们就得到了梯度下降的迭代公式。
正则化项约束项我们先通过一个例子来引入图片来自啥都不太会的比巴卜假设我们的预测函数有n个自变量x1一直到xn一共有n1个参数w1—wn和bm个数据样本我们希望通过这m个样本把这n1个参数给学出来从而确定出符合数据样本特征的具体预测函数。
我们希望通过最小化均方误差来求出w1—wn和b但这里有个非常严重的问题如果我们一味的追求均方误差越小越好会导致过拟合现象即我们训练出来的模型对我们训练集样本的预测效果特别好但是对测试集样本的预测效果会很差。
那如何克服该现象我们重新构造了损失函数在原损失函数的基础上加了一个正则化项其中μ是正则化项的权重并不是正则化项的一部分表示正则化项在整个损失函数中所占的权重而正则化项则是预测函数自变量的平方再求和。
也就是说在我们重新构造的损失函数中不仅要求了均方误差要比较小first还要求second均方误差中所涉及到的参数w也要控制在一个比较小的范围内对wi的和做了限制≤1。
这样做的好处是我们学出来的预测函数是相对平滑的。
为什么加了正则化项后我们得到的预测函数就比较平滑呢假如我们输入的其中一个特征xj有很严重的噪声干扰▲xj如果我们不加正则化项不对系数wj加以约束即使我们的噪声▲xj非常小但对我们的影响是非常大的我们希望的是受噪声误差的影响较小所以正则化项要对权重w进行限制把权重控制在一个比较小的范围内绿色曲线相比与红色曲线就比较平滑它牺牲了一部分误差而红色曲线很明显是过拟合了把噪声也完全算进去了。
为什么正则化项只对w有限制物理意义为什么加了正则化项后w会减小为什么L1可以让某些特征直接变为0丢弃掉不重要的特征而L2不可以首先我们要知道
上面的圆环就是损失函数的等值线至于为什么平方损失函数画成等值线后是一圈一圈的圆或者椭圆这个和二次型有关后面会补充我们先往下看
无约束时“最中心的圆心”对应最小损失因为二次函数“碗底唯一”等值线层层包裹的“中心点”就是碗底即最小损失位置。
所以我们就知道了在同一个圆环上对应的w1和w2计算出来的均方误差是一样的如果没有正则化限制中心的蓝色点就是我们要找的最优点该点处的均方误差是最小的。
但加了正则化项之后我们不仅要求均方误差比较小还要求w1和w2也比较小也就是要求该点即要在损失函数的等高线上尽可能的小还得在正则项的范围内也就是还要在下面黄色的圆或正方形的范围内。
故对于岭回归当两个圆相切的时候那个切点就是我们要找的同时满足这两个条件且均方误差最小的点对于拉索回归上面的圆往往和正方形的四个顶点或者四个顶点附近的点相交的概率是最大的我们图中给的就是和最上方的顶点相交了而这个点的w10也就是说在学习完之后x1对应的权重w1就为0了这个特征直接就被视为非必要特征而被丢弃了x1这个特征影响不到预测函数的值了其实只有两个自变量时没必要用拉索回归因为本来自变量就很少拉索回归一般用于自变量特征比较多的时候我们需要挑出比较重要的自变量的时候才会用到二维的时候还不是很明显。
我们来看看三维和n维是什么样左边这个图就是三个自变量的约束条件我们可以很明显的看出和顶点及顶点附近的点相交的概率是最大的这时自变量的权重要么很小要么直接为0在右侧的多维图中更加明显等值线肯定优先和凸起的部分相交一旦相交就意味着很多自变量的参数为0或者很小这就是为什么拉索回归可以稀疏化的原因而L2会将权重向0收缩但不会将他们精准的设为0因为是相切。
最后我们还要提一下超参数的作用μ越大必须取更小的 R(w)μ越小必须取更大的 R(w)这是因为λ 越大优化器为了压低整体损失会被迫把R(w)压得更小表示对R(w)的惩罚越重当λ→∞时最优解会尽量让R(w)→0在 L2 下趋近于 0在 L1 下很多分量被压到 0。
这不是“乘积为定值”的约束而是“加权和权衡”的结果λ 与约束半径C存在一一对应关系λ↑ ⇔ C↓。
而当R(w)变小时也就是让约束条件中权重的累加和变小在图像上就是从一个大圆大正方形变成一个小圆小正方形此时对应的w也会随之减小这就是为什么较大的λ值意味着更强烈的正则化会使模型更简单特征对应的权重值对预测函数影响小了可能导致欠拟合不把特征当回事了肯定欠拟合。
为什么平方损失函数画成等值线后是一圈一圈的圆或者椭圆因为原始的平方损失函数可以转化为标准二次型等值线形式过程如下
正态分布和标准正态分布正态分布我们来看一个实际的例子x轴表示产品尺寸y轴表示的不是频率而是频率/组距。
每个长方形的面积表示的才是频率。
当小组分的更细的时候当我们采用极限的思想将组距无限划分直到足够小可以当作是一个点时这个时候就得到了我们要的正态分布曲线。
均值μ就是最大值所取的位置变大图像就向右平移变小图像就向左平移它改变的是钟形曲线的位置形状不发生变化方差σ决定钟形曲线的形状方差越大数据越分散曲线越平缓方差越小数据越集中集中在均值附近曲线越陡峭。
3σ实际例题标准正态分布为什么我们在有了正态分布后还要令μ0σ^21来得到标准正态分布呢因为标准正态分布的概率密度函数有着更好的对称性我们还有一个标准正态分布表可以直接查表找到对应的概率只改变参照物不改变性质。
既然μ0则标准正态函数是关于y轴对称的此时就有有一个很重要的问题为什么任意正态变量 X ∼ N(μ, σ²) 都可通过Y (X − μ)/σ变换为标准正态呢Y (X − μ)/σ的实际意义是什么标准化也叫z - 分数标准化的核心目的是将不同均值和不同标准差的随机变量转化为具有统一尺度均值为0标准差为1的变量方便进行比较、分析以及后续的统计计算等操作。
简单来说就是X-μ使得该数据去掉了每个数据都有的平均水平同时也是和平均水平的差距偏离均值的值而根据方差的公式我们可以知道方差就是所有数据相对于平均水平的差距(X−μ)/σ的意义就是该数据与平均水平的差距相比于整体数据与平均水平的差距所差的程度也就是偏离均值几个标准差用个体和整体相除得到该数据在整体数据中到底有多偏每组数据的偏离程度都相当于是单位1这也是为什么标准正态分布的σ^2会为1因为已经把整体的偏离程度方差当作基准了(X−μ)/σ无非是对每个数据进行处理看个体在整体的偏移程度中到底是个什么水平跳出具体数据只看该数据在整体数据的偏移程度可以把两个不同意义的数据集拉到同一个维度来作比较。
故二者的成绩在各自的班级中优秀程度完全一样即使他俩总分差了20分。
转自https://mp.weixin.qq.com/s/c0fc2lXS_skOcQjKutUxCg