初步理解RNN和LSTM

RNN

RNN（Recurrent Neural Network，循环神经网络）是一种能够处理序列数据的神经网络。这里的时序信息可以指例如对于这一句话 “我吃了一个苹果”，“苹果” 的词性和意思，在这里取决于前面词的信息，如果没有 “我吃了一个” 这些词，“苹果” 也可以翻译为乔布斯搞出来的那个被咬了一口的苹果。

基本结构

在一个标准的RNN中，每一个时刻 tt 的输入 x_tx**t 和上一时刻 t-1t−1 的隐藏状态 h_{t-1}h**t−1 会通过网络生成当前时刻的输出 y_ty**t 和当前隐藏状态 h_th**t。

RNN的每一层都有一个共享的参数（例如权重矩阵），这个参数在每一时刻的计算中都会被使用，确保网络能够在整个序列中共享信息。

数学表达

隐藏状态计算：每个时刻的隐藏状态 h_t 是由当前输入 x_t 和上一时刻的隐藏状态 h_{t-1}计算得到的，公式如下：

$$
h_t = \text{tanh}(W_h \cdot [h_{t-1}, x_t] + b_h)
$$

其中：
- W_h 是隐藏状态的权重矩阵。
- [h_{t-1}]是上一时刻的隐藏状态与当前时刻的输入拼接而成的向量。
- b_h是偏置项。
- \text{tanh} 是激活函数。
输出计算：当前时刻的输出 y_ty**t 是由当前隐藏状态 h_th**t 计算得到的，公式为：
$y_t = W_y \cdot h_t + b_y$

其中：
- W_y是输出的权重矩阵。
- b_y 是偏置项。

梯度消失问题

RNN 所有的 timestep 共享一套参数 U,V,W在 RNN 反向传播过程中，需要计算 $U,V,W& 等参数的梯度，由公式可知，由于他是多层网络，计算梯度时是将各层的梯度链式相乘的，由于激活函数的局限性，梯度会变得过大或过小，尤其是远距离的，虽然梯度不会消失，但是它是无法学习到远距离的信息的。