【python,机器学习,nlp】RNN循环神经网络

RNN(Recurrent Neural Network),中文称作循环神经网络,它一般以序列数据为输入,通过网络内部的结构设计有效捕捉序列之间的关系特征,一般也是以序列形式进行输出。

因为RNN结构能够很好利用序列之间的关系,因此针对自然界具有连续性的输入序列,如人类的语言,语音等进行很好的处理,广泛应用于NLP领域的各项任务,如文本分类,情感分析,意图识别,机器翻译等.

RNN模型的分类:

这里我们将从两个角度对RNN模型进行分类.第一个角度是输入和输出的结构,第二个角度是RNN的内部构造.

按照输入和输出的结构进行分类:

N vs N-RNN

它是RNN最基础的结构形式,最大的特点就是:输入和输出序列是等长的.由于这个限制的存在,使其适用范围比较小,可用于生成等长度的合辙诗句.

N vs 1-RNN

有时候我们要处理的问题输入是一个序列,而要求输出是一个单独的值而不是序列,要在最后一个隐层输出h上进行线性变换。

大部分情况下,为了更好的明确结果,还要使用sigmoid或者softmax进行处理.这种结构经常被应用在文本分类问题上.

1 vs N-RNN

我们最常采用的一种方式就是使该输入作用于每次的输出之上.这种结构可用于将图片生成文字任务等.

N vs M-RNN

这是一种不限输入输出长度的RNN结构,它由编码器和解码器两部分组成,两者的内部结构都是某类RNN,它也被称为seq2seq架构。

输入数据首先通过编码器,最终输出一个隐含变量c,之后最常用的做法是使用这个隐含变量c作用在解码器进行解码的每一步上,以保证输入信息被有效利用。

按照RNN的内部构造进行分类:

传统RNN

内部计算函数

tanh的作用: 用于帮助调节流经网络的值,tanh函数将值压缩在﹣1和1之间。

传统RNN的优势:
由于内部结构简单,对计算资源要求低,相比之后我们要学习的RNN变体:LSTM和GRU模型参数总量少了很多,在短序列任务上性能和效果都表现优异。

传统rnn的缺点:
传统RNN在解决长序列之间的关联时,通过实践,证明经典RNN表现很差,原因是在进行反向传播的时候,过长的序列导致梯度的计算异常,发生梯度消失或爆炸。

LSTM

LSTM (Long Short-Term Memory)也称长短时记忆结构,它是传统RNN的变体,与经典RNN相比能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象,同时LSTM的结构更复杂。

LSTM缺点:由于内部结构相对较复杂,因此训练效率在同等算力下较传统RNN低很多.

LSTM优势:LSTM的门结构能够有效减缓长序列问题中可能出现的梯度消失或爆炸,虽然并不能杜绝这种现象,但在更长的序列问题上表现优于传统RNN.

 

它的核心结构可以分为四个部分去解析:

遗忘门

与传统RNN的内部结构计算非常相似,首先将当前时间步输入x(t)与上一个时间步隐含状态h(t-1)拼接, 得到[x(t), h(t-1)],然后通过一个全连接层做变换,最后通过sigmoid函数(变化到【0,1】)进行激活得到f(t),我们可以将f(t)看作是门值,好比一扇门开合的大小程度,门值都将作用在通过该扇门的张量,遗忘门门值将作用的上一层的细胞状态上,代表遗忘过去的多少信息,又因为遗忘门门值是由x(t), h(t-1)计算得来的,因此整个公式意味着根据当前时间步输入和上一个时间步隐含状态h(t-1)来决定遗忘多少上一层的细胞状态所携带的过往信息.

输入门

输入门的计算公式有两个,第一个就是产生输入门门值的公式,它和遗忘门公式几乎相同,区别只是在于它们之后要作用的目标上,这个公式意味着输入信息有多少需要进行过滤.输入门的第二个公式是与传统RNN的内部结构计算相同.对于LSTM来讲,它得到的是当前的细胞状态,而不是像经典RNN一样得到的是隐含状态.

细胞状态

我们看到输入门的计算公式有两个,第一个就是产生输入门门值的公式,它和遗忘门公式几乎相同,区别只是在于它们之后要作用的目标上.这个公式意味着输入信息有多少需要进行过滤.输入门的第二个公式是与传统RNN的内部结构计算相同.对于LSTM来讲,它得到的是当前的细胞状态,而不是像经典RNN一样得到的是隐含状态。

输出门

输出门部分的公式也是两个,第一个即是计算输出门的门值,它和遗忘门,输入门计算方式相同.第二个即是使用这个门值产生隐含状态h(t),他将作用在更新后的细胞状态C(t)上,并做tanh激活,最终得到h(t)作为下一时间步输入的一部分.整个输出门的程,就是为了产生隐含状态h(t)。

Bi-LSTM

Bi-LSTM即双向LSTM,它没有改变LSTM本身任何的内部结构,只是将LSTM应用两次且方向不同,再将两次得到的LSTM结果进行拼接作为最终输出

GRU

GRU(Gated Recurrent Unit)也称门控循环单元结构,它也是传统RNN的变体,同LSTM一样能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象.同时它的结构和计算要比LSTM 更简单。

GRU的优势:GRU和LSTM作用相同,在捕捉长序列语义关联时,能有效抑制梯度消失或爆炸,效果都优于传统rnn且计算复杂度相比lstm要小.

GRU的缺点:GRU仍然不能完全解决梯度消失问题,同时其作用RNN的变体,有着RNN结构本身的一大弊端,即不可并行计算,这在数据量和模型体量逐步增大的未来,是RNN发展的关键瓶颈

它的核心结构可以分为两个部分去解析:

更新门 
重置门

Bi-GRU

Bi-GRU与Bi-LSTM的逻辑相同,都是不改变其内部结构,而是将模型应用两次且方向不同,再将两次得到的LSTM结果进行拼接作为最终输出.具体参见上小节中的Bi-LSTM。

注意力机制

注意力机制是注意力计算规则能够应用的深度学习网络的载体,同时包括一些必要的全连接层以及相关张量处理,使其与应用网络融为一体.使自注意力计算规则的注意力机制称为自注意力机制.

注意力计算规则

它需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果,这个结果代表query在key和value作用下的注意力表示.当输入的Q=K=V时,称作自注意力计算规则.

注意力机制的作用

在解码器端的注意力机制: 能够根据模型目标有效的聚焦编码器的输出结果,当其作为解码器的输入时提升效果,改善以往编码器输出是单一定长张量,无法存储过多信息的情况.

在编码器端的注意力机制:主要解决表征问题,相当于特征提取过程,得到输入的注意力表示.一般使用自注意力(self-attention).

注意力机制实现步骤

第一步:根据注意力计算规则,对Q,K,V进行相应的计算.

第二步:根据第一步采用的计算方法,如果是拼接方法,则需要将Q与第二步的计算结果再进行拼接,如果是转置点积,一般是自注意力,Q与V相同,则不需要进行与Q的拼接.

第三步:最后为了使整个attention机制按照指定尺寸输出,使用线性层作用在第二步的结果上做一个线性变换,得到最终对Q的注意力表示.

代码实现

传统模型

import torch
import torch.nn as nn"""
nn.RNN类初始化主要参数解释
input_size:输入张量x中特征维度的大小
hidden_size:隐层张量h中特征维度的大小
num_layers: 隐含层的数量.
nonlinearity: 激活函数的选择,默认是tanh.
"""
rnn=nn.RNN(input_size=5,hidden_size=6,num_layers=1)"""
设定输入的张量x
第一个参数:sequence_length(输入序列的长度)
第二个参数:batch_size(批次的样本数)
第三个参数:input_size(输入张量x的维度)
"""
input=torch.randn(1,3,5)
"""
设定初始化的h0
第一个参数:num_layers *num_directions(层数*网络方向数)
第二个参数:batch_size(批次的样本数)
第三个参数:hiddeh_size(隐藏层的维度)
"""
h0=torch.randn(1,3,6)"""
nn.RNN类实例化对象主要参数解释
input: 输入张量x
h0:初始化的隐层张量h
"""
output,hn=rnn(input,h0)
# 传统RNN
class RNN(nn.Module):def __init__(self,input_size,hidden_size,output_size,num_layers=1):"""input_size:代表输入张量x中最后一个维度hidden_size: 代表隐藏层张量的最后一个维度output_size: 代表线性层最后的输出维度num_layers:代表RNN网络的层数"""super(RNN,self).__init__()self.input_size=input_sizeself.hidden_size=hidden_sizeself.output_size=output_sizeself.num_layers=num_layersself.rnn=nn.RNN(input_size,hidden_size,num_layers)# 全连接线性层self.linear=nn.linear(hidden_size,output_size)# 预定义的softmax层self.softmax=nn.LogSoftmax(dim=-1)def forward(self,input1,hidden):input1=input1.unsqueeze(0)rr,hn=self.rnn(input1,hidden)return self.softmax(self.linear(rr)),hndef init_hidden(self):"""初始化全零的隐藏层张量"""return torch.zeros(self.num_layers,1,self.hidden_size)

 

LSTM模型

import torch
import torch.nn as nn"""
nn.LSTM类初始化主要参数解释:
input_size: 输入张量x中特征维度的大小.
hidden_size: 隐层张量h中特征维度的大小.
num_layers: 隐含层的数量.
bidirectional: 是否选择使用双向LSTM,如果为True,则使用;默认不使用.
"""
rnn=nn.LSTM(input_size=5,hidden_size=6,num_layers=2)"""
设定输入的张量x
第一个参数:sequence_length(输入序列的长度)
第二个参数:batch_size(批次的样本数)
第三个参数:input_size(输入张量x的维度)
"""
input=torch.randn(1,3,5)
"""
设定初始化的h0,c0
第一个参数:num_layers *num_directions(层数*网络方向数)
第二个参数:batch_size(批次的样本数)
第三个参数:hiddeh_size(隐藏层的维度)
"""
h0=torch.randn(2,3,6)
c0=torch.randn(2,3,6)"""
nn.LSTM类实例化对象主要参数解释
input: 输入张量x
h0:初始化的隐层张量h.
cO:初始化的细胞状态张量c.
"""
output,(hn,cn)=rnn(input,(h0,c0))
# LSTM型RNN
class LSTM(nn.Module):def __init__(self,input_size,hidden_size,output_size,num_layers=1):"""input_size:代表输入张量x中最后一个维度hidden_size: 代表隐藏层张量的最后一个维度output_size: 代表线性层最后的输出维度num_layers:代表RNN网络的层数"""super(LSTM,self).__init__()self.input_size=input_sizeself.hidden_size=hidden_sizeself.output_size=output_sizeself.num_layers=num_layersself.lstm=nn.LSTM(input_size,hidden_size,num_layers)# 全连接线性层self.linear=nn.linear(hidden_size,output_size)# 预定义的softmax层self.softmax=nn.LogSoftmax(dim=-1)def forward(self,input1,hidden,c):input1=input1.unsqueeze(0)rr,(hn,cn)=self.lstm(input1,(hidden,c))return self.softmax(self.linear(hn)),hn,cndef init_hidden_and_c(self):c=hidden=torch=torch.zeros(self.num_layers,1,self.hidden_size)return hidden,c

 

GRU模型

import torch
import torch.nn as nn"""
nn.GRU类初始化主要参数解释
Input_size: 输入张量x中特征维度的大小
hidden_size:隐层张量h中特征维度的大小
num_layers:隐含层的数量
bidirectional: 是否选择使用双向LSTM,如果为True,则使用;默认不使用
"""
rnn=nn.GRU(input_size=5,hidden_size=6,num_layers=2)"""
设定输入的张量x
第一个参数:sequence_length(输入序列的长度)
第二个参数:batch_size(批次的样本数)
第三个参数:input_size(输入张量x的维度)
"""
input=torch.randn(1,3,5)
"""
设定初始化的h0
第一个参数:num_layers *num_directions(层数*网络方向数)
第二个参数:batch_size(批次的样本数)
第三个参数:hiddeh_size(隐藏层的维度)
"""
h0=torch.randn(2,3,6)"""
nn.GRU类实例化对象主要参数解释
input: 输入张量x.
h0:初始化的隐层张量h.
"""
output,hn=rnn(input,h0)
# GRU模型
class GRU(nn.Module):def __init__(self,input_size,hidden_size,output_size,num_layers=1):"""input_size:代表输入张量x中最后一个维度hidden_size: 代表隐藏层张量的最后一个维度output_size: 代表线性层最后的输出维度num_layers:代表RNN网络的层数"""super(GRU,self).__init__()self.input_size=input_sizeself.hidden_size=hidden_sizeself.output_size=output_sizeself.num_layers=num_layersself.gru=nn.GRU(input_size,hidden_size,num_layers)self.linear=nn.linear(hidden_size,output_size)self.softmax=nn.LogSoftmax(dim=-1)def forward(self,input1,hidden):input1=input1.unsqueeze(0)output,hn=self.gru(input1,hidden)return self.softmax(self.linear(hidden)),hndef init_hidden(self):return torch.zeros(self.num_layers,1,self.hidden_size)

 

注意力模型

import torch
import torch.nn as nn
import torch.nn.functional as F#建立attn类
class Attn(nn.Module):def __init__(self, query_size,key_size,value_size1,value_size2,output_size):"""_summary_Args:query_size (_type_): 代表的是Q的最后一个维度key_size (_type_): 代表的K的最后一个维度value_size1 (_type_): 代表value的导数第二维大小value_size2 (_type_): 代表value的倒数第一维大小output_size (_type_): 代表输出的最后一个维度的大小"""super(Attn, self).__init__()self.query_size = query_sizeself.key_size = key_sizeself.value_size1 = value_size1self.value_size2 = value_size2self.output_size = output_size# 初始化注意力机制self.attn=nn.Linear(self.query_size+self.key_size,self.value_size1)self.attn_combine=nn.Linear(self.query_size+self.value_size2,self.output_size)def forward(self,query,key,value):"""_summary_Args:query (_type_): 代表Qkey (_type_): 代表Kvalue (_type_): 代表VReturns:_type_: 返回注意力机制的输出"""# 计算注意力权重attn_weights=F.softmax(self.attn(torch.cat((query[0],key[0]),1)),dim=1)attn_applied=torch.bmm(attn_weights.unsqueeze(0),value)# 计算注意力机制的输出output=torch.cat((query[0],attn_applied[0]),1)output=self.attn_combine(output).unsqueeze(0)return output,attn_weightsquery_size=32
key_size=32
value_size1=32
value_size2=64
output_size=64#初始化attn
attn=Attn(query_size,key_size,value_size1,value_size2,output_size)
#使用attn实例
Q=torch.randn(1,1,32)
K=torch.randn(1,1,32)
V=torch.randn(1,32,64)
output=attn(Q,K,V)
wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/236617.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试算法119:最长连续序列

题目 输入一个无序的整数数组,请计算最长的连续数值序列的长度。例如,输入数组[10,5,9,2,4,3],则最长的连续数值序列是[2,3,4,5],因此…

【信息安全】hydra爆破工具的使用方法

hydra简介 hydra又名九头蛇,与burp常规的爆破模块不同,hydra爆破的范围更加广泛,可以爆破远程桌面连接,数据库这类的密码。他在kali系统中自带。 参数说明 -l 指定用户名 -L 指定用户名字典文件 -p 指定密码 -P 指…

Jenkins 问题

从gitlab 仓库拉去代码到Jenkins本地报错 ERROR: Couldn’t find any revision to build. Verify the repository and branch configuration for this job. 问题原因: 创建条目》配置的时候,gitlab仓库不存在master分支 修复后:

x-cmd pkg | czg - git commit 智能生成工具

目录 简介首次用户功能特点竞品和相关作品进一步探索 简介 czg 源于 commitizen/cz-cli 交互插件中 cz-git 的延伸项目,重新使用 TypeScript 编写的零依赖独立的 Node.js 命令行工具。旨在使用交互友好的方式,辅助用户生成规范的 git commit message 约…

如何解决NAND系统性能问题?-- NAND接口分类

三、NAND接口 NAND闪存接口是连接主机控制器与NAND存储芯片的通信桥梁,负责命令、地址和数据的传输。典型的NAND闪存接口包括一组I/O线(通常为8条或更多)用于数据传输,以及若干控制信号线。 基本接口信号: Chip Enable…

如何一键添加引号和英文逗号,然后可以放入SQL中使用 → WHERE USER_NAME IN (‘张三‘,‘李四‘,‘王五‘)

如何一键添加引号和英文逗号,然后可以放入SQL中使用 → WHERE USER_NAME IN(张三,李四,王五) 一、背景二、解决方法三、一键添加引号和英文逗号的教程 一、背景 在日常开发中,当处理VARCHAR或VARCHAR2类型的字段时,很…

【自控实验】3. 带有饱和非线性环节控制系统相平面分析

本科课程实验报告,有太多公式和图片了,干脆直接转成图片了 仅分享和记录,不保证全对 实验内容: 有无非线性环节的相轨迹对比,并求超调量。 在输入单位阶跃信号Xsr时,用示波器观察和记录系统输入饱和非线…

电子学会C/C++编程等级考试2020年12月(三级)真题解析

C/C++编程(1~8级)全部真题・点这里 第1题:完美立方 形如 a^3= b^3 + c^3 + d^3的等式被称为完美立方等式。例如 12^3= 6^3 + 8^3 + 10^3 。 编写一个程序,对任给的正整数 N (N≤100),寻找所有的四元组 (a, b, c, d),使得 a^3= b^3 + c^3 + d^3 ,其中 a,b,c,d均大于 11, …

NVMe-oF 1.1规范:多路径、非对称命名空间和NVMe/TCP

提到NVMe over Fabric,我就会想到它的几种应用场景: 1、 存储阵列到主机的网络连接(替代FC、iSCSI等); 2、 服务器、本地NVMe存储解耦(跨机箱/JBOF),SSD存储资源池化共享&#xff…

高压消防泵:科技与安全性的完美结合

在现代社会,随着科技的不断发展,各种高科技设备层出不穷,为我们的生活带来了极大的便利。在森林火灾扑救领域,恒峰智慧科技研发的高压消防泵作为一种高效、节能、绿色、环保的优质设备,将科技与安全性完美地结合在一起…

科技云报道:“存算一体”是大模型AI芯片的破局关键?

科技云报道原创。 在AI发展历史上,曾有两次“圣杯时刻”。 第一次发生在2012年10月,卷积神经网络(CNN)算法凭借比人眼识别更低的错误率,打开了计算机视觉的应用盛世。 第二次是2016年3月,DeepMind研发的…

20240112-【UNITY 学习】实现第一人称移动教程

1、创建一个空物体,挂载Rigidbody组件,并设置相应参数 2、在上述空物体下创建一个胶囊体,两个空物体,一个用来控制朝向,另一个用来控制摄像机 3、给摄像机创建一个父物体,并挂载脚本MoveCamera_01.cs using…

MySQL面试题 | 03.精选MySQL面试题

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

DNS域名解析以及操作流程

dns:将域名转化为IP地址的过程,域名方便人们记忆,ip地址过长,且都是数字,不方便记忆,所以才出现了域名。 怎么实现访问域名等于访问ip地址 1.老方法:写入文件里 /etc/hosts 左边 IP地址 右边域名 格式例…

Jenkins配置发邮件

Jenkins配置发邮件 账号设置 首先这个邮箱账号要支持发邮件,QQ邮箱开通SMTP即可之后要认证 企业微信邮箱 开启IMAP/SMTP服务开启POP/SMTP服务 无论是企业微信邮箱还是QQ邮箱都是SSL协议,在下面的配置中我都会勾选上!!&#xff0…

深入理解UML中的继承关系

深入理解UML中的继承关系 在面向对象的设计中,继承关系是构建清晰、可维护系统的关键。统一建模语言(UML)提供了一种标准化的方法来可视化这些关系。本文将深入探讨UML中的继承关系,并探讨它如何在代码中体现。 什么是继承关系&a…

sqlilabs第五十一五十二关

Less-51(GET - Error based - ORDER BY CLAUSE-String- Stacked injection) 手工注入 源码 单引号闭合用注释(没有后续输出只能堆叠注入) 自动注入 和上一关一样 Less-52(GET - Bind based - ORDER BY CLAUSE-numeric- Stacked injection) 手工注入 数字类型 不用注释直接…

iOS UI掉帧和卡顿优化解决方案记录

UI卡顿原理 在 VSync 信号到来后,系统图形服务会通过 CADisplayLink 等机制通知 App,App 主线程开始在 CPU 中计算显示内容,比如视图的创建、布局计算、图片解码、文本绘制等。随后 CPU 会将计算好的内容提交到 GPU 去,由 GPU 进行…

C#核心--实践小项目(贪吃蛇)

C#核心实践小项目 -- 贪吃蛇 必备知识点--多脚本文件 (可观看CSharp核心--52集进行了解) 必备知识点--UML类图 必备知识点--七大原则 贪吃蛇 项目展示 控制方向的是:WSAD 确定键是:J 需求分析(UML类图&#xff09…

强化学习应用(三):基于Q-learning的无人机物流路径规划研究(提供Python代码)

一、Q-learning简介 Q-learning是一种强化学习算法,用于解决基于马尔可夫决策过程(MDP)的问题。它通过学习一个价值函数来指导智能体在环境中做出决策,以最大化累积奖励。 Q-learning算法的核心思想是通过不断更新一个称为Q值的…