LSTM长短期记忆网

 笔记来源——

【重温经典】大白话讲解LSTM长短期记忆网络 如何缓解梯度消失,手把手公式推导反向传播

 

LSTM网络结构

RNN结构

下面拉出一个单元结构进行讲解

C_{t-1}:记忆细胞,t-1时刻的记忆细胞

h_{t-1}:表示状态,t-1时刻的状态

正是这样经过了一个单元,我们输出了新的的状态跟记忆细胞

\sigma:门单元  

f_{t}:forget,遗忘门

i_{t}:更新门

o_{t}:输出门

公式推导

这里的小c_{t}就认为是我们的g_{t}

结构讲解

通过例子我们来理解一下

假设我们要考试,左边的时间部A是我们的高等数学,中间的时间部是我们的线性代数

假设我们要去考线性代数,X_{t}就相当于我们要去复习我们的线性代数,打个比方就是我们已经翻开了线性代数的课本以及习题开始复习。中间那些条条就相当于我们复习形成的记忆。最后上面的h_{t}就是我们要去考试,就是我们考试的一个分数。复习当中会形成我们新的记忆C_{t},会带着我们复习好的记忆拿去考试。最后下面的h_{t}就是我们考完试的这样的一个状态。

之后就好理解了,前一科,我们要去考高等数学,那么C_{t-1}就是我们考完高等数学的这样一个记忆。就是我们复习完之后所形成的跟高数有关的一些记忆。左下脚的h_{t-1}就是考完高数的这样一个状态。

然后我们就有一个目标,我们希望考完的每一个得分都有好的一个目标/成绩(上面的h_{t}),因为我们这里是一个有监督学习,我们需要有一个好的成绩来监督我们每一个参数的迭代更新。

遗忘门

假设我们的脑容量是有限的,我们在考完高等数学之后需要遗忘其相关内容给我们的线性代数留空间。

刚刚我们了解到我们需要X_{t}去复习我们的线性代数,第二步就是我们需要把线性代数没有关的内容遗忘掉,所以f_{t}就是遗忘掉我们过去积累下来的一些记忆。

如何操作?

我们知道f_{t}里面有所有的数都是介于0-1,例如[0,1,1,0,1],就是一个向量,通过跟这样的一个向量相乘,他就会把C_{t-1}向量里面对应的位置的一些记忆的内容给调整,是0就遗忘,是1就调整。

更新门

注:这里的小c_{t}就是之前说的g_{t}

这里i_{t}作用的对象就是g_{t},这里的g_{t}就相当于我们形成的新的记忆,但是这个新的记忆并不是全都有用,所以我们这里要有一个门要去选择性的提取。所以这里的i_{t}就是可以过滤掉没有用的记忆。

然后到这里就形成了我们新的记忆

这里的C_{t}就很容易理解了,这里的C_{t}就跟我们过去的记忆和当下生成的记忆有关系,将他们相加结合起来。

tanh是激活函数

输出门

这里分红色的tanh如何理解?

可以理解为:它可以将我们记忆的内容转化为答题的能力

因为我们复习到的东西很多很全面,最后我们考试的时候不可能将所有复习到的东西都考一遍,有可能只考到其中的一部分,所以我们这里的o_{t}的作用就是我们只需要用到其中的一部分的知识来进行答题。

RNN梯度消失回顾

什么是RNN?

RNN是递归神经网络(Recurrent Neural Network)的缩写。它是一种神经网络结构,专门用于处理序列数据,具有记忆和顺序处理的能力。

在传统的前馈神经网络中,每个输入与输出之间都是独立的,而RNN通过引入循环连接,允许信息在网络中传递并保持状态。

RNN的基本结构包括:

  1. 循环连接(Recurrent Connections):RNN中的每个时间步都有一个循环连接,使得网络可以在处理当前输入时考虑之前的信息。这种连接使得RNN能够处理任意长度的序列输入。

  2. 隐藏状态(Hidden State):在RNN的每个时间步,网络都会产生一个隐藏状态,用于存储之前时间步的信息。隐藏状态是RNN的记忆,使得网络能够在处理序列时保持上下文信息。

  3. 时间步(Time Steps):RNN处理序列数据时,会将输入序列分割成多个时间步。在每个时间步,网络接收一个输入,并生成一个输出和一个隐藏状态,然后将隐藏状态传递到下一个时间步。

  4. 递归单元(Recurrent Units):RNN中的递归单元通常采用LSTM(Long Short-Term Memory)单元或GRU(Gated Recurrent Unit)单元等结构,以解决传统RNN中的梯度消失和梯度爆炸等问题。

RNN在自然语言处理(如语言建模、机器翻译、情感分析)、时间序列分析(如股票预测、天气预测)和序列生成(如文本生成、音乐生成)等领域都有广泛的应用。

对于RNN梯度消失的这个问题,可以参考我这篇笔记

RNN循环神经网络及其梯度消失笔记

LSTM如何缓解梯度消失

可以看到我们的参数是非常多的

我们以W_{xf}参数为例,推导一下我们反向传播的过程

假设我们最右边就是t=3,中间t=2,最前面t=1

对三个位置的W_{xf}分别求导

这是我们求导的路径

不同路线的求偏导

简化方程

下面就是我们简化后的方程

由于要求第三个,但路径是非常多的,就没有写推导的方程了,就写了一下路径

合并一下同类项,并将这两个路径组合

把上面的这个路径简化为下面那样

我们继续把从C_{3}C_{2}的路继续简化

再表达为右边的公式

最后得到的就是右边的这些,而且我们发现了连乘项的出现,然后我们针对这个部分对其求一下

这个式子有一个特点,就是他是由4个部分进行相加的

这些参数是可以去调控他值的一个大小的,也就是说我们的模型可以通过学习去控制它值的一个大小的。从而去控制\frac{\partial C_{t}}{\partial C_{t-1}}的值的大小的。也就是说我可以去控制这些参数而去使得\frac{\partial C_{t}}{\partial C_{t-1}}处于比较接近于一个1的数。

我们可以知道,当我们的时间跨度越长的时候 ,我们的路径越长,中间的累乘项也会更多,这个部分就容易带来我们的梯度消失的可能,所以这个部分我们没有办法去把控。

但是这里我们的连乘项,可以灵活的去调控它的参数,去实现很多1*1*1的效果,就导致连乘的效果大大的削弱了,梯度消失的可能性就大大的降低了,所以就极大的缓解了梯度消失的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/269959.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Stable Diffusion ———LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo等版本之间关系现原理详解

前言 2021年5月,OpenAI发表了《扩散模型超越GANs》的文章,标志着扩散模型(Diffusion Models,DM)在图像生成领域开始超越传统的GAN模型,进一步推动了DM的应用。 然而,早期的DM直接作用于像素空…

JavaWeb HTTP 请求头、请求体、响应头、响应体、响应状态码

J2EE(Java 2 Platform Enterprise Edition)是指“Java 2企业版”,B/S模式开发Web应用就是J2EE最核心的功能。 Web是全球广域网,也称为万维网(www),能够通过浏览器访问的网站。 在日常的生活中,经常会使用…

链表之“带头双向循环链表”

目录 ​编辑 1.链表的分类 2.带头双向循环链表的实现 1.创建结构体 2.创建返回链表的头节点 3.双向链表销毁 4.双向链表打印 5.双向链表尾插 6.双向链表尾删 7.双向链表头插 8.双向链表头删 9.双向链表查找 10.双向链表在pos的前面进行插入 11.双向链表删除pos位…

MySQL 表的基本操作,结合项目的表自动初始化来讲

有了数据库以后,我们就可以在数据库中对表进行增删改查了,这也就意味着,一名真正的 CRUD Boy 即将到来(😁)。 查表 查看当前数据库中所有的表,使用 show tables; 命令 由于当前数据库中还没有表,所以输出 Empty set。 不指定数据库 在操作表之前,可以通过 use 数…

Docker容器数据卷使用

创建容器 将本地的/home/ceshi和容器的/home目录进行一个挂载,文件内容会进行同步 -v参数就是进行一个卷的挂载 主机路径:容器内的路径 [rootwq ~]# cd /home/ [rootwq home]# ll total 8 drwx------ 3 admin admin 4096 Dec 29 10:16 admin drwx------ 2 www www 4096…

【洛谷 P8720】[蓝桥杯 2020 省 B2] 平面切分 题解(计算几何+集合+向量)

[蓝桥杯 2020 省 B2] 平面切分 题目描述 平面上有 N N N 条直线, 其中第 i i i 条直线是 y A i ⋅ x B i yA_{i} \cdot xB_{i} yAi​⋅xBi​ 。 请计算这些直线将平面分成了几个部分。 输入格式 第一行包含一个整数 N N N。 以下 N \mathrm{N} N 行, 每行包含两个…

阿里巴巴中国站获得商品快递费用 API 返回值说明

一、应用场景 阿里巴巴中国站获得商品快递费用 API(1688.item_fee)通常用于查询商品的快递费用。这个API的应用场景包括但不限于以下几个方面: 1、电商平台:在电商平台上,当用户购买商品时,需要知道商品的…

LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型

2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。 Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。 Haiku模型更注重效率,能…

uniapp模仿下拉框实现文字联想功能 - uniapp输入联想(官方样式-附源码)

一、效果 废话不多说&#xff0c;上效果图&#xff1a; 在下方的&#xff1a; 在上方的&#xff1a; 二、源码 一般是个输入框&#xff0c;输入关键词&#xff0c;下拉一个搜索列表。 ElementUI有提供<el-autocomplete>&#xff0c;但uniapp官网没提供这么细&#x…

15个经典面试问题及回答思路,小白以及计算机类学生的福音

前言 这几年在Java工程师招聘时&#xff0c;会看到很多人的简历都写着使用了Spring Cloud做微服务实现&#xff0c;使用Docker做自动化部署&#xff0c;并且也会把这些做为自己的亮点。而比较有趣的这其中以小公司出来的人为绝大多数&#xff0c;大的公司出来的人简历上倒是很…

自动化测试基础——Pytest框架之YAML详解以及Parametrize数据驱动

文章目录 一、YAML详解1.YAML作用2.YAML语法结构3.YAML数据类型3.1.对象3.2.数组3.3.标量 4.YAML的引用5.YAML类型转换 二、YAML的读写与清空1.YAML的读2.YAML的写3.YAML的清空 三、pytest的parametrize简单数据驱动四、pytest的parametrize结合yaml实现数据驱动五、解决pytest…

rabbitmq基础(1)

1、背景 能实现消息队列的框架软件有很多&#xff0c;kafka、rabbitmq、RocketMq、activeMq、Redis&#xff08;非专业&#xff09;&#xff0c;各有各的特点和优缺点。但是之前的公司数据需求规模并非很大&#xff0c;所以采用rabbitmq作为消息队列。 2、rabbitMq的基础架构…

docker单节点搭建在线商城

本文档使用到的软件包以上传到资源中 目录 1. 创建容器并配置基础内容 1.1 将gpmall-repo上传到容器中 1.2 添加yum源 2. 安装基础服务 2.1 安装JAVA环境 2.2 安装Redis缓存服务 2.3 安装Elasticsearch服务 2.4 安装Nginx服务 2.5 安装MariaDB数据库 2.6 安…

LeetCode Python - 36.有效的数独

目录 题目答案运行结果 题目 请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 &#xff0c;验证已经填入的数字是否有效即可。 数字 1-9 在每一行只能出现一次。数字 1-9 在每一列只能出现一次。数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。&#xff08…

【设计模式】(二)设计模式六大设计原则

一、 设计原则概述 设计模式中主要有六大设计原则&#xff0c;简称为SOLID &#xff0c;是由于各个原则的首字母简称合并的来(两个L算一个,solid 稳定的)&#xff0c;六大设计原则分别如下&#xff1a; ​ 1、单一职责原则&#xff08;Single Responsibitity Principle&#…

Fiddler入门:下载、安装、配置、抓包、customize rules

一、fiddler下载安装 安装包下载链接&#xff1a;https://www.telerik.com/download/fiddler 随便选个用途&#xff0c;填写邮箱&#xff0c;地区选择China&#xff0c;勾选“I accept the Fiddler End User License Agreement”&#xff0c;点击“DownLoad for windows”&…

element loading遮罩层添加按钮

<el-table v-loading"loadingText" element-loading-text"拼命加载中" :data"tableData" :tableColumn"tableColumn" :span-method"objectSpanMethod" border :cell-style"cellStyle" :header-cell-style"…

备考2024年小学生古诗文大会:历年真题15题练习和独家解析

如何提高小学生古诗词的知识&#xff1f;如何激发小学生古诗词的学习兴趣&#xff1f;如何提高小学古诗词的学习成绩&#xff1f;如何备考2024年小学生古诗文大会&#xff1f;...如果你也在关心和这些问题&#xff0c;我的建议是参加每年一度的小学生古诗词大会&#xff08;免费…

安卓类加载机制

目录 一、ClassLoader介绍二、双亲委托机制三、类的加载过程 一、ClassLoader介绍 任何一个 Java 程序都是由一个或多个 class 文件组成&#xff0c;在程序运行时&#xff0c;需要将 class 文件加载到 JVM 中才可以使用&#xff0c;负责加载这些 class 文件的就是 Java 的类加…

【深圳五兴科技】Java后端面经

本文目录 写在前面试题总览1、java集合2、创建线程的方式3、对spring的理解4、Spring Boot 和传统 Spring 框架的一些区别5、springboot如何解决循环依赖6、对mybatis的理解7、缓存三兄弟8、接口响应慢的处理思路9、http的状态码 写在前面 关于这个专栏&#xff1a; 本专栏记录…