《动手学深度学习(PyTorch版)》笔记4.7

Chapter4 Multilayer Perceptron

4.7 Forward/Backward Propagation and Computational Graphs

本节将通过一些基本的数学和计算图，深入探讨反向传播的细节。首先，我们将重点放在带权重衰减（ $L_2$ 正则化）的单隐藏层多层感知机上。

4.7.1 Forward Propagation

前向传播（forward propagation或forward pass）指的是按顺序（从输入层到输出层）计算和存储神经网络中每层的结果。

我们将一步步研究单隐藏层神经网络的机制，为了简单起见，我们假设输入样本是 $\mathbf{x}\in \mathbb{R}^d$ ，并且我们的隐藏层不包括偏置项。这里的中间变量是：

$\mathbf{z}= \mathbf{W}^{(1)} \mathbf{x},$

其中 $\mathbf{W}^{(1)} \in \mathbb{R}^{h \times d}$ 是隐藏层的权重参数。将中间变量 $\mathbf{z}\in \mathbb{R}^h$ 通过激活函数 $\phi$ 后，我们得到长度为 $h$ 的隐藏激活向量：

$\mathbf{h}= \phi (\mathbf{z}).$

隐藏变量 $\mathbf{h}$ 也是一个中间变量。假设输出层的参数只有权重 $\mathbf{W}^{(2)} \in \mathbb{R}^{q \times h}$ ，我们可以得到输出层变量，它是一个长度为 $q$ 的向量：

$\mathbf{o}= \mathbf{W}^{(2)} \mathbf{h}.$

假设损失函数为 $l$ ，样本标签为 $y$ ，我们可以计算单个数据样本的损失项，

$l(\mathbf{o}, y).$

根据 $L_2$ 正则化的定义，给定超参数 $\lambda$ ，正则化项为

$\frac{\lambda}{2} \left(\|\mathbf{W}^{(1)}\|_F^2 + \|\mathbf{W}^{(2)}\|_F^2\right),$

$\|\mathbf{X}\|_F$ 表示矩阵的Frobenius范数：
$\|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}.$
最后，模型在给定数据样本上的正则化损失为：

$J = L + s .$

在下面的讨论中，我们将 $J$ 称为目标函数（objective function）。

下图是与上述简单网络相对应的计算图，其中正方形表示变量，圆圈表示操作符。

在这里插入图片描述

4.7.2 Backward Propagation

反向传播（backward propagation或backpropagation）指的是计算神经网络参数梯度的方法，该方法根据链式规则，按相反的顺序从输出层到输入层遍历网络。该算法存储了计算某些参数梯度时所需的任何中间变量（偏导数）。
假设我们有函数 $\mathsf{Y}=f(\mathsf{X})$ 和 $\mathsf{Z}=g(\mathsf{Y})$ ，其中输入和输出 $\mathsf{X}, \mathsf{Y}, \mathsf{Z}$ 是任意形状的张量。利用链式法则，我们可以计算 $\mathsf{Z}$ 关于 $\mathsf{X}$ 的导数：

$\frac{\partial \mathsf{Z}}{\partial \mathsf{X}} = \text{prod}\left(\frac{\partial \mathsf{Z}}{\partial \mathsf{Y}}, \frac{\partial \mathsf{Y}}{\partial \mathsf{X}}\right).$

在这里，我们使用 $\text{prod}$ 运算符在执行必要的操（如换位和交换输入位置）后将其参数相乘。对于高维张量，我们使用适当的对应项。

在上面的计算图中单隐藏层简单网络的参数是 $\mathbf{W}^{(1)}$ 和 $\mathbf{W}^{(2)}$ ，反向传播的目的是计算梯度 $\partial J/\partial \mathbf{W}^{(1)}$ 和 $\partial J/\partial \mathbf{W}^{(2)}$ ，计算的顺序与前向传播中执行的顺序相反，具体如下：

$\frac{\partial J}{\partial L} = 1 \; \text{and} \; \frac{\partial J}{\partial s} = 1.$

$\frac{\partial J}{\partial \mathbf{o}} = \text{prod}\left(\frac{\partial J}{\partial L}, \frac{\partial L}{\partial \mathbf{o}}\right) = \frac{\partial L}{\partial \mathbf{o}} \in \mathbb{R}^q.$

$\frac{\partial s}{\partial \mathbf{W}^{(1)}} = \lambda \mathbf{W}^{(1)} \; \text{,} \; \frac{\partial s}{\partial \mathbf{W}^{(2)}} = \lambda \mathbf{W}^{(2)}.$

$\frac{\partial J}{\partial \mathbf{W}^{(2)}}= \text{prod}\left(\frac{\partial J}{\partial \mathbf{o}}, \frac{\partial \mathbf{o}}{\partial \mathbf{W}^{(2)}}\right) + \text{prod}\left(\frac{\partial J}{\partial s}, \frac{\partial s}{\partial \mathbf{W}^{(2)}}\right)= \frac{\partial J}{\partial \mathbf{o}} \mathbf{h}^\top + \lambda \mathbf{W}^{(2)}\in \mathbb{R}^{q \times h}.$

$\frac{\partial J}{\partial \mathbf{h}} = \text{prod}\left(\frac{\partial J}{\partial \mathbf{o}}, \frac{\partial \mathbf{o}}{\partial \mathbf{h}}\right) = {\mathbf{W}^{(2)}}^\top \frac{\partial J}{\partial \mathbf{o}}\in \mathbb{R}^h.$

由于激活函数 $\phi$ 是按元素计算的，计算中间变量 $\mathbf{z}$ 的梯度需要使用按元素乘法运算符，我们用 $\odot$ 表示：

$\frac{\partial J}{\partial \mathbf{z}} = \text{prod}\left(\frac{\partial J}{\partial \mathbf{h}}, \frac{\partial \mathbf{h}}{\partial \mathbf{z}}\right) = \frac{\partial J}{\partial \mathbf{h}} \odot \phi'\left(\mathbf{z}\right)\in \mathbb{R}^h.$

$\begin{align*} \frac{\partial J}{\partial \mathbf{W}^{(1)}} &= \text{prod}\left(\frac{\partial J}{\partial \mathbf{z}}, \frac{\partial \mathbf{z}}{\partial \mathbf{W}^{(1)}}\right) + \text{prod}\left(\frac{\partial J}{\partial s}, \frac{\partial s}{\partial \mathbf{W}^{(1)}}\right) \\ &= \frac{\partial J}{\partial \mathbf{z}} \mathbf{x}^\top + \lambda \mathbf{W}^{(1)} \\ &= \frac{\partial J}{\partial \mathbf{h}} \odot \phi'\left(\mathbf{z}\right)\mathbf{x}^\top + \lambda \mathbf{W}^{(1)} \\ &= ({\mathbf{W}^{(2)}}^\top \frac{\partial J}{\partial \mathbf{o}})\odot \phi'\left(\mathbf{z}\right)\mathbf{x}^\top + \lambda \mathbf{W}^{(1)}. \end{align*}$

4.7.3 Training Neural Networks

在训练神经网络时，前向传播和反向传播相互依赖。以上述简单网络为例：一方面，在前向传播期间计算正则项取决于模型参数 $\mathbf{W}^{(1)}$ 和 $\mathbf{W}^{(2)}$ 的当前值。它们是由优化算法根据最近迭代的反向传播给出的。另一方面，反向传播期间参数的梯度计算，取决于由前向传播给出的隐藏变量 $\mathbf{h}$ 的当前值。