核心内容摘要
C++高性能计算与深度学习:模型推理加速实践
背景与动机
1 深度神经网络的“退化”问题在 ResNet 提出之前(2015 年前),人们普遍认为更深的卷积神经网络(CNN)能带来更强的表达能力,从而提升性能。
然而,实验发现:当网络层数增加到一定程度(如 20 层以上),训练误差反而上升;这并非由过拟合引起(因为训练误差本身变大),而是优化困难导致的,称为网络退化(Degradation Problem)。
注意:退化 ≠ 过拟合。
过拟合是训练误差低但验证误差高;退化是训练误差本身就高。
2 梯度消失/爆炸问题虽然 Batch Normalization(BN)等技术缓解了梯度消失问题,但即使使用 BN,极深网络仍难以有效训练。
这表明退化问题的本质不仅是梯度问题,更涉及优化路径的复杂性。
ResNet 的核心思想:残差学习(Residual Learning)
1 基本理念传统网络试图让堆叠层直接拟合目标映射 $ H(x) $。
ResNet 则重新参数化这一过程:让网络学习残差函数$ F(x)