深度学习中,一般的参数更新方式都是梯度下降法,在使用梯度下降法时,涉及到梯度反向传播的过程,那么在反向传播过程中梯度到底是怎么传递的?结合自己最近的一点理解,下面举个例子简单说明!
一、下面首先是一个简单的神经网络图
二、神经网络图,说明如下:
更正上图中第4条:梯度下降法,是损失函数在负梯度方向下降最快,即损失函数在梯度方向的相反方向下降最快!
三、下面是梯度反向传播的推导过程:
上图中,左边的四组公式表示前向传播的传递过程,前向传播根据给定的输入和初始化的参数来计算出损失L并把中途的中间变量a1、a2、a3和z1、z2、z3、z4计算出来并保存。梯度的反向传播过程如图中红色箭头表示:最初是计算损失函数对z4的偏导数,然后以它为起始值依次计算损失函数对其它参数或中间变量的偏导数。图中红色箭头的方向便反应出了梯度反向传播的实现过程。