深度学习入门笔记（八）可以不断思考的模型：RNN与LSTM

8.1 循环神经网络RNN

之前学到的 CNN 和全连接，模型的输入数据之间是没有关联的，比如图像分类，每次输入的图片与图片之间就没有任何关系，上一张图片的内容不会影响到下一张图片的结果。但在自然语言处理领域，这就成了一个短板。

RNN因此出现，它是一类用于处理序列数据的神经网络。其基本单元结构如下
在这里插入图片描述
自底向上的三个蓝色的节点分别是输入层、隐藏层和输出层。U 和 V 分别是连接两个层的权重矩阵。如果不考虑右边的棕色环路的话，就是一个典型的全连接的网络。

将上面的环路展开，如下
在这里插入图片描述
含义为：在 t 时刻，网络接受输入 Xt 和来自 t-1 时刻的隐藏层状态 St-1，并产生一个 t 时刻的隐藏层状态 St，以及 t 时刻的输出 Ot。其公式化的表示为：

其中 g 和 f 是各自节点的激活函数。这里面需要注意的一点是，对于每一个时间 t，U、V、W 都是同一个，这非常类似上一章讲到的权值共享。

RNN 的权值共享主要出于两方面的考虑：

减少参数量，也减少计算量
RNN 接受的输入是可变长的，如果不进行权值共享，那每个 W 都不同，我们无法提前预知需要多少个 W，实现上的计算就会非常困难。

以上是典型的RNN结构。

8.1.1 变体：双向RNN（BiRNN）

在这里插入图片描述

相比于 RNN，BiRNN 维持了两个方向的状态。正向计算和反向计算不共享权重，也就是说 U、V、W 分别有两个，以对应不同的方向。其公式化的表示就变成了如下的形式：
在这里插入图片描述

8.1.2 变体：深度RNN

前面介绍的结构中，隐藏层只有一层，但在实际的使用中，也经常会增加隐藏层的数量，即为深度RNN，能够捕获和关联更多的前后信息以提升效果。

8.2 RNN 的梯度消失与爆炸

我们尝试求 RNN 的梯度，首先明确函数关系，如下所示：
在这里插入图片描述
求梯度实际上是求 W、V、U 的偏导数。我们以 L 对 W 在 t 时刻求偏导数为例，推导过程如下：

可以发现，L 关于 W 的偏导数会随着序列的长度而产生长期依赖。

也就是指当前系统的状态，可能受很长时间之前系统状态的影响，这是RNN中无法解决的一个问题。

而且RNN 一般会使用 tanh 函数作为它的激活函数，而 tanh 的导数在 0-1 之间。如此一来，如果 W 也是在 0-1之间，随着 t 的增大，梯度计算中连续相乘就会变得很长，很多个在 0~1 之间的数相乘会逐渐接近 0。梯度接近 0 则意味着梯度消失了；反之如果 W 很大，则梯度也会变得非常大，进而产生梯度爆炸，这是一个很严重的问题。

这就是接下来要介绍的长短期记忆网络要解决的问题。

8.3 长短期记忆网络LSTM

针对RNN的问题，如果我们能让 RNN 在接受上一时刻的状态和当前时刻的输入时，有选择地记忆和删除一部分内容（或者说信息），问题就可以解决了，比如有一句话提及刚才吃了苹果，那么在此之前说的吃香蕉的内容就没那么重要，删除就好了。

LSTM结构如下
在这里插入图片描述
Ct-1表示上一时刻的细胞状态（cell state），ht-1则表示上一时刻的隐藏状态（hidden state）。

LSTM 独特的地方在于它内部使用了 3 个逻辑门来控制细胞的状态，分别是遗忘门、输入门和输出门，并对应了忘记、选择、更新、输出这 4 个不同的阶段，从而有选择性地保留或删除信息。

忘记阶段

刚才说过，对于上一时刻的状态我们如果能够选择性地记忆就好了。LSTM 中就使用了 Zf这个逻辑门来实现相应的功能，这个逻辑门实际上是一个 Sigmoid 单元，我们称为遗忘门。Sigmoid 可以将输入映射在 0～1 之间，得到的值再与 Ct-1相乘，这样就实现了对上一时刻状态 Ct-1的控制，即哪些信息保留或者删除多少。遗忘门的公式化表示为：
在这里插入图片描述