序列建模之循环和递归网络

序列建模之循环和递归网络 - 递归神经网络篇

序言

在序列建模的广阔领域中，递归神经网络（ $\text{Recursive Neural Network, RNN}$ ），注意此处的 $\text{RNN}$ 与常用于序列处理的循环神经网络在命名上有所重叠，但在此特指处理树状或层次结构数据的网络）以其独特的递归机制，为处理具有层次或嵌套结构的数据提供了强有力的工具。递归神经网络通过模拟数据的自然层次结构，如句子的句法树、文档的章节结构等，能够深入理解数据的内在组织和含义。与传统的序列 $\text{RNN}$ 不同，递归 $\text{RNN}$ 通过递归调用自身来处理每个子节点，从而逐步构建出整个结构的深层表示。

递归神经网络

$递归神经网络^1$ 代表循环网络的另一个扩展，它被构造为深的树状结构而不是RNN的链状结构，因此是不同类型的计算图。
- 递归网络的典型计算图如图例1所示。
- 递归神经网络由 $\text{Pollack (1990)}$ 引入，而 $\text{Bottou (2011) }$ 描述了这类网络的潜在用途——学习推论。
- 递归网络已成功地应用于输入是数据结构的神经网络( $\text{Frasconi et al., 1997, 1998}$ )，如自然语言处理 ( $\text{Socher et al., 2011a,c, 2013a}$ ) 和计算机视觉( $\text{Socher et al., 2011b}$ )。
递归网络的一个明显优势是，对于具有相同长度 $\tau$ 的序列，深度（通过非线性操作的组合数量来衡量）可以急剧地从 $\tau$ 减小为 $\Omicron(\log\tau)$ ，这可能有助于解决长期依赖。
- 一个悬而未决的问题是如何以最佳的方式构造树。
- 一种选择是使用不依赖于数据的树结构，如平衡二叉树。
- 在某些应用领域，外部方法可以为选择适当的树结构提供借鉴。
- 例如，处理自然语言的句子时，用于递归网络的树结构可以被固定为句子语法分析树的结构（可以由自然语言语法分析程序提供）( $\text{Socher et al., 2011a,c}$ )。
- 理想的情况下，人们希望学习器自行发现和推断适合于任意给定输入的树结构，如( $\text{Bottou, 2011}$ )所建议。
许多递归网络想法的变种是可能的。
- 例如， $\text{Frasconi et al. (1997)}$ 和 $\text{Frasconi et al. (1998)}$ 将数据与树结构相关联，并将输入和目标与树的单独节点相关联。
- 由每个节点执行的计算无须是传统的人工神经计算（所有输入的仿射变换后跟一个单调非线性）。
- 例如， $\text{Socher et al. (2013a)}$ 提出用张量运算和双线性形式，在这之前人们已经发现当概念是由连续向量（嵌入）表示时，这种方式有利于建模概念之间的联系 ( $\text{Weston et al., 2010; Bordes et al., 2012}$ )。

注1：我们建议不要将 ‘‘递归神经网络’’ 缩写为 “RNN’’，以免与 “循环神经网络’’ 混淆。

图例1：递归网络将循环网络的链状计算图推广到树状计算图。
- 递归网络将循环网络的链状计算图推广到树状计算图。
- 说明：
  - 可变大小的序列 $\boldsymbol{x}^{(1)},\boldsymbol{x}^{(2),\dots,\boldsymbol{x}^{(t)}}$ 可以通过固定的参数集合（权重矩阵 $\boldsymbol{U},\boldsymbol{V},\boldsymbol{W}$ ）映射到固定大小的表示（输出 $\boldsymbol{\omicron}$ ）。
  - 该图展示了监督学习的情况，其中提供了一些与整个序列相关的目标 $\boldsymbol{y}$ 。

总结

递归神经网络作为处理层次和嵌套结构数据的利器，在序列建模中占据了重要地位。
其递归机制使得网络能够按照数据的自然结构进行建模，从而捕捉到更为丰富的语义和上下文信息。这种特性使得递归 $\text{RNN}$ 在自然语言处理、文本分类、情感分析等多个领域展现出了独特的优势。
随着深度学习技术的不断发展，递归 $\text{RNN}$ 的性能和应用范围还将不断拓展，为更多复杂序列建模任务提供新的解决方案。