【pytorch】现代循环神经网络-2

1 双向循环神经网络（Bi-RNN）

具有单个隐藏层的双向循环神经网络的架构如图所示：

在这里插入图片描述

对于任意时间步t，给定一个小批量的输入数据 Xt ∈ Rn×d （样本数n，每个示例中的输入数d），并且令隐藏层激活函数为ϕ。在双向架构中，我们设该时间步的前向和反向隐状态分别为 →Ht ∈ Rn×h和←Ht ∈ Rn×h，其中h是隐藏单元的数目。前向和反向隐状态的更新如下：
在这里插入图片描述

将前向隐状态→Ht 和反向隐状态←Ht连接起来，获得需要送入输出层的隐状态Ht ∈ Rn×2h。在具有多个隐藏层的深度双向循环神经网络中，该信息作为输入传递到下一个双向层。最后，输出层计算得到的输出为 Ot ∈ Rn×q（q是输出单元的数目）：
在这里插入图片描述

双向循环神经网络的一个关键特性是：使用来自序列两端的信息来估计输出。也就是说，我们使用来自过去和未来的观测信息来预测当前的观测。存在问题如下：
（1）在训练期间，我们能够利用过去和未来的数据来估计现在空缺的词；而在测试期间，我们只有过去的数据，因此精度将会很差。
（2）双向循环神经网络的计算速度非常慢。其主要原因是网络的前向传播需要在双向层中进行前向和后向递归，并且网络的反向传播还依赖于前向传播的结果。因此，梯度求解将有一个非常长的链。
**双向层的使用在实践中非常少，并且仅仅应用于部分场合。**例如，填充缺失的单词、词元注释（例如，用于命名实体识别）以及作为序列处理流水线中的一个步骤对序列进行编码（例如，用于机器翻译）。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/501467.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！