自然语言处理入门4——RNN

一般来说,提到自然语言处理,我们都会涉及到循环神经网络(RNN),这是因为自然语言可以被看作是一个时间序列,这个时间序列中的元素是一个个的token。传统的前馈神经网络结构简单,但是不能很好的处理时间序列数据,RNN便应运而生。

一、RNN概述

语言模型给出了单词序列发生的概率,具体来说就是评估一个单词发生的可能性。我们之前的CBOW模型就是这种(可以参考我的前两篇文章《自然语言处理入门2》《自然语言处理入门3》),但是CBOW模型有个问题,就是长度限制,因为CBOW需要选择一个窗口window来作为上下文,也就是说它只能根据前后一定窗口的大小来预测中间缺失的单词。如果不断加大窗口大小也会造成速度和性能的困扰,并且CBOW这种模型的目的其实主要是为了获取单词的分布式表示方法,基于此所以语言模型一般都使用RNN。

RNN有一个特点,就是不受上下文长度限制(其实也不是不受限制,只是很大程度上可以不受限制,如果长度过长,一样会引起梯度消失等等无法训练的问题,所以才有后面的截断时序训练和门控循环神经网络LSTM等等)。RNN最大的特征就是模型中存在回路,所以才被叫做循环神经网络,结构图如下:

跟一般的前馈神经网络的区别就是,RNN的输出除了流向下一个节点的结果之外,还要把这个结果重新作为输入传到模型中,我们称之为隐藏信息h。把循环网络展开来后,就是上图右边的样子了。每个节点的输入都是原始输入数据本身以及上一个节点传过来的隐藏信息。

举个实际的例子:对于"you say goodbye and i say hello."这句话,传递流程如下图所示:

1. 第一个单词you,先进行向量化也就是embedding操作,序列没有上一个节点传过来的信息,因此输入向量直接经过RNN得到一个输出,转变为概率,可以看到下一个输出概率最高的是say,同时,RNN的输出传递到下一个节点;

2.第二个单词say,先进行embedding得到向量化表示,这次RNN有上一个节点传过来的隐藏信息了,所以要把这个隐藏信息传递到RNN,并且将say的embedding表示数据也一并传入RNN,得到一个输出,转变为概率,得到概率最高的goodbye,同时再把RNN的输出传递到下一个节点;

3.第三个单词goodbye,先进行embedding得到向量化表示,再把上一个的节点的隐藏信息一起传递到RNN中得到输出,转变为概率得到概率最高的输出and,同时再把RNN的输出传递掉下一个节点,这里输出的隐藏信息已经包括了前面的you say goodbye三个单词的信息了,然后以此类推;

... ...

4.最终遍历完时间序列中的所有单词。

不过这里要注意,其实真正的RNN并不存在这样的铺开式结构,这里的示意图只是为了便于理解把RNN在时间方向上展开了而已。

二、RNN的实现

下面我们来实现一下RNN。

有顺序的序列数据训练一般采用“按时间顺序展开的神经网络的误差反向传播法”,简称BPTT。处理长时序数据时,通常的做法是将网络连接截成适当的长度。具体来说,就是将时间轴方向上过长的网络在合适的位置进行截断,从而创建多个小型网络,然后对截出来的小型网络执行误差反向传播法,称为Truncated BPTT。

这是书中提供的方法,因为当序列长度太长的时候,梯度会变得不稳定,容易出现梯度消失问题,并且消耗的计算资源也会很大,所以对网络进行了截断训练,后面的LSTM,GRU等等模型也是为了解决RNN时序过长等引起的问题的方法。

Truncated BPTT的特点就是前馈网络中正常传递,但是反向传播进行截断,以“块”为单位进行误差反向传播,其实也就是等于分块训练,结构如下:

RNN的正向传播用公式表示就是:

ht-1是上一个节点传入的隐藏信息,Wh是隐藏信息的权重矩阵,xt是当前节点输入的数据,Wx是输入数据的权重矩阵,b是偏置。这几个元素进行线性组合后,再应用一次非线性的正切变换,得到的就是输出ht。

反向传播示意图:

反向传播流程:

上一个节点传入的dhnext代表传递过来的梯度信息,要对ht-1(也就是hprev),Wh,xt,Wx和b分别求偏导数,以得到他们各自的梯度(反向传播算法里面有说明,可以参考深度学习教科书)。

假设ht-1Wh + xtWx + b为Z,正向传播公式:

那么他们各自的梯度如下(由于tanh(z)对z的导数是1-(tanh(z))^2):

基于以上的推断,我们可以写出RNN的实现程序:

import numpy as npclass RNN:def __init__(self, Wx, Wh, b):self.params = [Wx, Wh, b]self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]self.cache = Nonedef forward(self, x, h_prev):Wx, Wh, b = self.paramst = np.dot(h_prev, Wh) + np.dot(x, Wx) + bh_next = np.tanh(t)# 暂存self.cache = (x, h_prev, h_next) return h_next # 返回正向隐藏信息def backward(self, dh_next):Wx, Wh, b = self.paramsx, h_prev, h_next = self.cachedt = dh_next*(1-h_next**2)db = np.sum(dt, axis=0)dWh = np.dot(h_prev.T, dt)dh_prev = np.dot(dt, Wh.T)dWx = np.dot(x.T, dt)dx = np.dot(dt, Wx.T)self.grads[0][...] = dWxself.grads[1][...] = dWhself.grads[2][...] = dbreturn dx, dh_prev # 返回上一个隐藏信息的梯度和输入的梯度

根据之前说的截断网络训练方法,我们在RNN的基础上构建TimeRNN。Time RNN是T个RNN层连起来的网络。其中有一个成员变量layers,保存T个RNN层,另一个成员变量h保存调用forward方法时的最后一个RNN层隐藏状态。stateful=True表示继承Time RNN层的状态,stateful=False表示不继承Time RNN层的状态。

class TimeRNN:def __init__(self, Wx, Wh, b, stateful=False):self.params = [Wx, Wh, b]self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]self.layers = Noneself.h, self.dh = None, Noneself.stateful = statefuldef set_state(self, h):self.h = hdef reset_state(self):self.h = Nonedef forward(self, xs):Wx, Wh, b = self.params # 传入权重矩阵和偏置# N表示batch_size,T是xs包括的时序数据个数,D是输入向量的维度N, T, D = xs.shape # H表示隐藏状态的向量维数D, H = Wx.shapeself.layers = []# 定义输出隐藏信息hs = np.empty((N,T,H), dtype='f')# 如果是第一个节点或者不继承隐藏状态if not self.stateful or self.h is None:# 则输入的隐藏信息设置为0self.h = np.zeros((N,H), dtype='f')for t in range(T):# 循环遍历T个节点,记录隐藏信息layer = RNN(*self.params)self.h = layer.forward(xs[:,t,:],self.h)hs[:,t,:] = self.hself.layers.append(layer)return hsdef backward(self, dhs):Wx, Wh, b = self.paramsN, T, D = dhs.shapeD, H = Wx.shapedxs = np.empty((N,T,D), dtype='f')dh = 0grads = [0,0,0]# 这里是反序遍历T个节点for t in reversed(range(T)):layer = self.layers[t]# 每个节点内部做反向传播dx,dh = layer.backward(dhs[:,t,:]+dh) # 求和后的梯度dxs[:,t,:] = dx# 获取Wx,Wh和b的梯度,并进行累加for i, grad in enumerate(layer.grads):grads[i] += gradfor i,grad in enumerate(grads):self.grads[i][...] = gradself.dh = dhreturn dxs

在TimeRNN的基础上构建了RNNLM,RNNLM是指基于RNN的语言模型(language model)。这个模型就是把我们之前的信息都合并在一起,输入的一串时序数据,每串时序数据都要先进行Embedding操作(每串时序数据包含T个单独的时序数据,或者叫token),然后传入TimeRNN层,最后把输出的隐藏信息传入到Affine层,Affine就是一个简单的神经网络,进行计算得到输出结果。(《深度学习入门:基于Python的理论与实现》有详细论述),把这三个操作串联起来形成一个layer。输出的分类结果进行softmax操作,并计算出损失值,传递到Affine层,得到输入的梯度dx,再输入到TimeRNN,这里进行分块,块内反向传播,得到的梯度相加,得到总的梯度,再传递到Emebedding,进行反向传播,最后用优化器optimizer进行梯度更新,完成训练。

class SimpleRnnlm:def __init__(self, vocab_size, wordvec_size, hidden_size):V,D,H = vocab_size, wordvec_size, hidden_sizern = np.random.randn# 初始化权重embed_W = (rn(V,D)/100).astype('f')rnn_Wx = (rn(D,H)/np.sqrt(D)).astype('f')rnn_Wh = (rn(H,H)/np.sqrt(H)).astype('f')rnn_b = np.zeros(H).astype('f')affine_W = (rn(H,V)/np.sqrt(H)).astype('f')affine_b = np.zeros(V).astype('f')# 生成层self.layers = [TimeEmbedding(embed_W),TimeRNN(rnn_Wx, rnn_Wh, rnn_b, stateful=True),TimeAffine(affine_W, affine_b)]self.loss_layer = TimeSoftmaxWithLoss()self.rnn_layer = self.layers[1]# 将所有的权重和梯度整理到列表中self.params, self.grads = [],[]for layer in self.layers:self.params += layer.paramsself.grads += layer.gradsdef forward(self, xs, ts):for layer in self.layers:xs = layer.forward(xs)loss = self.loss_layer.forward(xs, ts)return lossdef backward(self, dout=1):dout = self.loss_layer.backward(dout)for layer in reversed(self.layers):dout = layer.backward(dout)return doutdef reset_state(self):self.rnn_layer.reset_state()

我们可以用之前用到的一个英文语料库ptb进行训练。语言模型是基于已经出现的单词预测将要出现的单词的概率分布。困惑度(perplexity)是一个比较常用的指标,它是概率的倒数,如果预测一个单词出现的概率是0.2,则它的困惑度是5,如果预测一个单词出现的概率是0.8,则它的困惑度是1.25,我们的模型训练过程可视化指标选择用困惑度来表示。困惑度自然是越低越好。

import numpy as np# 设定超参数
batch_size = 10
wordvec_size = 100
hidden_size = 100  # RNN的隐藏状态向量的元素个数
time_size = 5  # RNN的展开大小
lr = 0.1
max_epoch = 100# 读入训练数据
corpus, word_to_id, id_to_word = load_data('train')
corpus_size = 1000  # 缩小测试用的数据集
corpus = corpus[:corpus_size]
vocab_size = int(max(corpus) + 1)
xs = corpus[:-1]  # 输入
#print(xs.shape)
ts = corpus[1:]  # 输出(监督标签)# 生成模型
model = SimpleRnnlm(vocab_size, wordvec_size, hidden_size)
optimizer = SGD(lr)
trainer = RnnlmTrainer(model, optimizer)trainer.fit(xs, ts, max_epoch, batch_size, time_size)
trainer.plot()
# 输出
| epoch 1 |  iter 1 / 19 | time 0[s] | perplexity 417.35
| epoch 2 |  iter 1 / 19 | time 0[s] | perplexity 387.39
| epoch 3 |  iter 1 / 19 | time 0[s] | perplexity 272.27
| epoch 4 |  iter 1 / 19 | time 0[s] | perplexity 224.16
| epoch 5 |  iter 1 / 19 | time 0[s] | perplexity 210.55
| epoch 6 |  iter 1 / 19 | time 0[s] | perplexity 208.73
| epoch 7 |  iter 1 / 19 | time 0[s] | perplexity 200.27
| epoch 8 |  iter 1 / 19 | time 0[s] | perplexity 200.94
| epoch 9 |  iter 1 / 19 | time 0[s] | perplexity 194.13
| epoch 10 |  iter 1 / 19 | time 0[s] | perplexity 189.88
... ...
| epoch 95 |  iter 1 / 19 | time 2[s] | perplexity 6.94
| epoch 96 |  iter 1 / 19 | time 2[s] | perplexity 6.83
| epoch 97 |  iter 1 / 19 | time 2[s] | perplexity 6.54
| epoch 98 |  iter 1 / 19 | time 2[s] | perplexity 6.41
| epoch 99 |  iter 1 / 19 | time 2[s] | perplexity 5.99
| epoch 100 |  iter 1 / 19 | time 2[s] | perplexity 5.89

经过100个世代的训练,可以看到困惑度从训练一开始的417.35多下降到5.89,说明预测的概率也在不断提升,效果还是不错的,当然5.89的困惑度还是比较高的,继续训练有望进一步降低困惑度。我测试了一下,当训练200个世代后,困惑度下降到了1.15,这就是一个比较好的结果了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36555.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++学习之QT实现取证小软件首页

实现效果 #include "mainwindow.h" #include "ui_mainwindow.h" #include <QToolButton> #include <QLabel> #include <QMessageBox> #include <QDebug> #include <QHBoxLayout> #include <QTableView> #incl…

AI 数字人短视频数字人分身系统源码开发难点都有哪些?

AI 数字人分身系统源代码开发涉及多个领域的复杂技术&#xff0c;其难点主要体现在以下几个方面&#xff1a; 逼真的数字人建模 精确的人体扫描与重建&#xff1a;要创建高度逼真的数字人分身&#xff0c;首先需要对真实人体进行精确扫描&#xff0c;获取准确的人体外形、肌肉…

适合用户快速开发项目的PHP框架有哪些?

有时候用户赶时间&#xff0c;并想快速在有限的时间里&#xff0c;筑起自己的项目&#xff0c;对于适合用户快速开发项目的PHP框架有哪些推荐呢&#xff1f;下面一起来了解一下。 1. Laravel Laravel 是一个功能强大且语法优雅的PHP框架&#xff0c;提供了丰富的功能和工具&a…

物联网为什么用MQTT不用 HTTP 或 UDP?

先来两个代码对比&#xff0c;上传温度数据给服务器。 MQTT代码示例 // MQTT 客户端连接到 MQTT 服务器 mqttClient.connect("mqtt://broker.server.com:8883", clientId) // 订阅特定主题 mqttClient.subscribe("sensor/data", qos1) // …

进程间通信(1)——管道

1. 进程间通信简介 进程间通信&#xff08;Inter-Process Communication&#xff0c;IPC&#xff09;是指不同进程之间交换数据的机制。由于进程具有独立的地址空间&#xff0c;它们无法直接访问彼此的数据&#xff0c;因此需要IPC机制来实现信息共享、数据传递或同步操作。 …

台达PLC转太网转换的教程案例(台达DVP系列)

产品介绍 台达DVP-PLC自投身工业自动化市场以来&#xff0c;始终致力于创新发展&#xff0c;不断推陈出新。其产品紧密贴合市场需求与行业工艺&#xff0c;凭借卓越性能与丰富功能&#xff0c;深受用户青睐。不仅推出了高效的程序与编辑工具&#xff0c;显著提升了主机执行速度…

ArcGIS10. 8简介与安装,附下载地址

目录 ArcGIS10.8 1. 概述 2. 组成与功能 3. 10.8 特性 下载链接 安装步骤 1. 安装准备 2. 具体步骤 3.补丁 其他版本安装 ArcGIS10.8 1. 概述 ArcGIS 10.8 是由美国 Esri 公司精心研发的一款功能强大的地理信息系统&#xff08;GIS&#xff09;平台。其核心功能在于…

R语言高效数据处理-自定义格式EXCEL数据输出

注&#xff1a;以下代码均为实际数据处理中的笔记摘录&#xff0c;所以很零散&#xff0c; 将就看吧&#xff0c;这一篇只是代表着我还在&#xff0c;所以可能用处不大&#xff0c;这一段时间都很煎熬&#xff01; 在实际数据处理中为了提升效率&#xff0c;将Excel报表交付给…

从零构建大语言模型全栈开发指南:第一部分:数学与理论基础-1.1.2核心数学基础:线性代数、概率论与梯度优化

&#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 文章大纲 1.1.2 核心数学基础&#xff1a;线性代数、概率论与梯度优化1. 线性代数&#xff1a;大语言模型的“骨架”1.1 核心概念与应用场景表1&#xff1a;线性代数核心运算与模型应…

科研项目验收管理系统

摘 要 使用旧方法对科研项目信息进行系统化管理已经不再让人们信赖了&#xff0c;把现在的网络信息技术运用在科研项目信息的管理上面可以解决许多信息管理上面的难题&#xff0c;比如处理数据时间很长&#xff0c;数据存在错误不能及时纠正等问题。这次开发的科研项目验收管…

游戏成瘾与学习动力激发策略研究——了解存在主义心理学(通俗版)

存在主义心理学是20世纪中叶兴起的重要心理学流派,融合了哲学存在主义思想,强调人的主观体验、自由选择与责任承担,旨在帮助个体在不确定的世界中创造意义。 研究人如何在不确定的世界中活出意义的心理学,核心思想可以概括为以下四点: 存在主义心理学的主要内容 “存在先于…

Dropshare for Mac v6.1 文件共享工具 支持M、Intel芯片

Dropshare 是 Mac 用来上传图片、视频、截图和各种文件的工具。这款软件利用了SCP over SSH传输协议来将 Mac 本机的文件快速上传到自设的远程服务器。 应用介绍 Dropshare 是 Mac 用来上传图片、视频、截图和各种文件的工具。这款软件利用了SCP over SSH传输协议来将 Mac 本…

关于redis中的分布式锁

目录 分布式锁的基础实现 引入过期时间 引入校验id 引入lua脚本 引入看门狗 redlock算法 分布式锁的基础实现 多个线程并发执行的时候&#xff0c;执行的先后顺序是不确定的&#xff0c;需要保证程序在任意执行顺序下&#xff0c;执行逻辑都是ok的。 在分布式系统中&am…

利用AI让数据可视化

1. 从问卷星上下载一份答题结果。 序号用户ID提交答卷时间所用时间来源来源详情来自IP总分1、《中华人民共和国电子商务法》正式实施的时间是&#xff08;&#xff09;。2、&#xff08;&#xff09;可以判断企业在行业中所处的地位。3、&#xff08;&#xff09;是指店铺内有…

PairRE: Knowledge Graph Embeddings via Paired Relation Vectors(论文笔记)

CCF等级&#xff1a;A 发布时间&#xff1a;2020年11月 代码位置 25年3月24日交 目录 一、简介 二、原理 1.整体 2.关系模式 3.优化模型 三、实验性能 四、结论和未来工作 一、简介 将RotatE进行生级&#xff0c;RotatE只对头实体h进行计算&#xff0c;PairRE对头尾…

解决git init 命令不显示.git

首先在自己的项目代码右击 打开git bash here 输入git init 之后自己的项目没有.git文件&#xff0c;有可能是因为.git文件隐藏了&#xff0c;下面是解决办法

汇编移位指令

rol, ror 循环左移/右移 该指令影响CF。因为左移/右移时将最高位/最低位移动到CF中&#xff0c;同时移动到最低位&#xff0c;其他位依次左移/右移。 shl, shr 逻辑左移/右移 该指令影响CF。因为左移/右移时将最高位/最低位移动到CF中&#xff0c;其他位依次左移/右移&…

Python个人学习笔记(18):模块(异常处理、traceback、日志记录)

七、异常处理 语法错误不属于异常&#xff0c;处理的是程序运行时的一些意外情况 代码&#xff1a; a int(input(>>>&#xff1a;)) b int(input(>>>&#xff1a;)) print(a / b) # 在运行的时候由于数据不对&#xff0c;导致出错 # 此时程序会中断 prin…

AnyTouch:跨多个视觉触觉传感器学习统一的静态动态表征

25年3月来自人大、武汉科技大学和北邮的论文“AnyTouch: Learning Unified Static-dynamic Representation Across Multiple Visuo-tactile Sensors”。 视觉触觉传感器旨在模拟人类的触觉感知&#xff0c;使机器人能够精确地理解和操纵物体。随着时间的推移&#xff0c;许多精…

【数据分享】1999—2023年地级市固定资产投资和对外经济贸易数据(Shp/Excel格式)

在之前的文章中&#xff0c;我们分享过基于2000-2024年《中国城市统计年鉴》整理的1999-2023年地级市的人口相关数据、染物排放和环境治理相关数据、房地产投资情况和商品房销售面积相关指标数据、社会消费品零售总额和年末金融机构存贷款余额、各类用地面积、地方一般公共预算…