深度学习之网络优化与正则化

视频链接：7.1 神经网络优化的特点_哔哩哔哩_bilibili

神经网络优化的特点

网络优化的难点

（1）网络结构差异大：不同模型之间的结构差异大——没有通用的优化算法、超参数多

（2）非凸优化问题：导致得到的最优解可能是全局最优解——参数如何初始化、如何逃离局部最优或鞍点

（3）梯度消失和爆炸问题：当网络非常深时，靠下的层的参数的梯度要么接近0，要么非常大，十分难优化

高维空间中的非凸优化问题

鞍点

低维空间中的非凸优化问题要解决的核心问题是如何逃离f'(x)=0的局部最优解

而在高维空间中的非凸优化问题要解决的核心问题是如何逃离鞍点

鞍点：梯度为0的点

鞍点在某些维度上是局部最小点，而在某些维度上是局部最大点

假设在D维空间中有一点为鞍点，在每一维上，如果它是一个非凸优化问题，基本上一个局部最低点与局部最高点的比例是1：1。因此在每个维度上一个梯度为0的点是局部最优点的概率为1/2，因此在D维空间的鞍点为全局最优点的概率为(1/2)^D

平坦最小值

在高维空间中，大部分的最小值都是平坦最小值，当参数冗余的时候，改变一个参数一般不会引起损失的大幅变化

由于局部最小解往往十分接近全局最优解，所以很多时候没必要去找全局最优解，反而是过于追求全局最优解可能会带来过拟合

优化地形的可视化

加入了残差连接的网络还可以使优化地形变得平滑

优化方法

优化算法改进

随机梯度下降（SGD）

对训练集中的样本进行随机排序，然后按照顺序每次取一个样本计算梯度，再反向传播更新参数至错误率不再下降

小批量随机梯度下降（MiniBatch）

每次取K个样本，更新是按步长更新，可以理解为把K个当成整体

批量大小（Batch Size）

与学习率的关系

当每次取K个样本、更新m次时，得到的Δ梯度如图左下角所示，可以看到这个式子是每次取batchsize为m的K个样本时的Δ梯度的m倍。为了使它们的步长差不多，学习率也要变成m倍。但是在实际应用中不需要过于追求线性关系，超参调整趋势大致一致就行

对收敛的影响

Iteration是更新一次，Epoch是整个数据集更新一次

如何改进

动态学习率

学习率衰减

周期性学习率调整

学习率不是一味的衰减，整体趋势是下降的，可以使模型更好地跳出sharp的局部最优点，得到更加平坦的局部最优点，增强模型的鲁棒性

左图是普通学习率调整，右图是周期性学习率调整（经过多个局部最优，方便找到更好地局部最优点）

其他学习率调整方法

（1）固定学习率调整批量大小，相当于减小了学习率

（2）先设置一个小的时间间隔，让学习率逐渐上升到预设点再开始衰减。因为参数初始化时的选点一般是未知的，梯度很不稳定，如果一开始就给一个大的学习率，是不利于稳定的优化的

自适应学习率

Adagrad：Gt是所有t的每一维度上的学习率的平方和，Gt随着训练次数增加而增加，学习率随之减小

RMSprop：把Gt从绝对的累计改成移动平均，β是超参数。移动平均的好处是：它不是历史上所有梯度的平方和，不会像Adagrad的Gt一样一直递增导致学习率过小

Adadelta：把分子也变成动态调整的，由上上次的ΔX的平方＋上次参数更新方向的平方构成。好处是：例如某点梯度比较大，那么你可以试着学习率变大一点，多走一下，可以帮助更好的收敛

梯度方向优化

Momentum动量

图1是每次更新的轨迹，图2是加了动量后的轨迹，可以看到像图1这样在垂直方向上无意义的抖动，加上动量后上下抵消，有利于梯度的下降

Nesterov加速梯度

动量法的缺陷：动量法可以看作是两步走，第一步走历史的一小段，第二步走θt-1的梯度。把连接点看作θ’，那么第二步直接求θ‘处的梯度而不是θt-1的梯度，有利于梯度估计

Adam算法

移动平均和真正的平均是有差异的，所以需要偏差修正

例如在t=1时的移动平均如图所示，M0=0，则

但实际上M1是=g1的，所以需要偏差修正

梯度截断

当梯度过大时，就算是小的学习率也会走出很远，极可能错过最优解

参数初始化

对称权重问题

因为权重都为0，那么计算出来的两个激活值a1和a2也相等，所以误差也相等。进而导致，代价函数对两个参数的偏导数也相等，所以用梯度下降更新后的参数值也会相等，只是可能不为0，但还是一直保持相等，后续也都会这样，一直相等。所以这样的话，两条蓝色的线的权重会相等，红色的会相等，绿色的也会相等，所以这个神经网络计算不出什么有趣的函数，每一层的神经元都在进行着相同的计算，这是一种高度冗余的情况

预训练初始化

在大量数据上训练骨干网络（backbone），再到固定的数据集上做微调

固定值初始化

bias通常初始化为0；在forget gate中的bias需要设大一点，让门一直打开，这样梯度比较好计算

随机初始化

Gaussian分布与均匀分布

如何确定均值、方差、r取多少合适：

例如上图中，x∈(0, 1)，将wx+b经过sigmoid后我们希望它落在左图蓝色的梯度较大的部分，通过这种方式取反推均值、方差、r应该取多少

范数保持性

因为 δ(l-1) = W(l).T * δ(l)，而我们希望 δ(l-1) = δ(l)，所以希望W * W.T为单位矩阵，从而引出两种方法：基于方差缩放的参数初始化与正交初始化

基于方差缩放的参数初始化

将参数优化到一个区间后，使整个网络的神经元的活性值的方差保持一致，可以使梯度在计算中不出现爆炸或消失

为了方便，我们将这一层网络的非线性去掉

假设a是从tanh激活函数得出来的，tanh函数是0中心化的，因此a(l-1)的期望为0。若随机取的w的期望也为0，那么a(l)的期望也为0（a与w独立）。此时a(l)的方差就等于l-1层的神经元个数×w(l)的方差×a(l-1)的方差。因为希望a(l)的方差与a(l-1)的方差相等，所以初始化w(l)的方差为1/M(l-1)。此时计算出的是前向传播的，如果加上反向传播，则w(l)的方差应初始化为2/M(l)+M(l-1)，对应着表中Xavier初始化用tanh作为激活函数使的初始化结果