1.梯度爆炸的公式计算
计算一个简单的两层神经网络的前向传播和反向传播过程。在这里,我们故意选择过大的初始权重值,查看梯度如何爆炸。
总结: 梯度值很大,这是梯度爆炸的一个典型例子。此时,如果我们使用梯度下降进行参数更新,权重更新会非常剧烈,可能会导致训练不稳定。由上述过程可以看到,计算梯度的链式法则中涉及激活值,权重值,以及初始输入x,这些数据过大都可能导致梯度值很大,反向传播的累计过程造成梯度爆炸。
2.梯度消失的公式计算
为了简化示例,我们将使用 Sigmoid 激活函数,它的导数在输入较大或较小时接近于零。
- 缓解梯度爆炸/消失的办法: 【AI知识】激活函数介绍(sigmoid & Tanh & Relu)+ 梯度爆炸 / 消失及解决办法