044、门控

之——GRU

目录

之——GRU

杂谈

正文

1.重置门和更新门

2.候选隐藏状态

3.新的隐状态

长短期记忆网络LSTM

1.候选记忆单元

2.记忆单元

3.隐状态


杂谈

        关注一个序列,不是每个观察都同等重要,传统RNN会一直在Whh中隐含所有以前的信息,包括了很多不必要的信息。

        门控神经网络就是设计一定的控制单元,使得模型只关注相关需要的,忘记不相关的。


正文

1.重置门和更新门

        输入是由当前时间步的输入和前一时间步的隐状态给出。 两个门的输出是由使用sigmoid激活函数的两个全连接层给出。

        公式:

        门有自己的权重,同时接受隐变量的输出。 门的输出是被激活函数控制在0~1的范围空间的。


2.候选隐藏状态

        使用重置门构建候选隐藏状态:

         具体公式:

        这一操作可以削减Ht-1的状态影响,因为Rt是0~1的,也就是一定程度上削减以往状态的影响。


3.新的隐状态

        然后使用更新门更新隐状态:

        具体计算为:

        这一操作进一步决定了更新的依据权重。 


长短期记忆网络LSTM

        LSTM其实是门控的前身,但为啥要这样设计也不是很明白,和上述的GRU很像,稍微多一点东西,要实现的效果是一样的,就是通过现在与过去的权衡来完成更长时间的迭代学习。

        和门控类似,但这里设置了三个门:

        就是三个连接方式,通过MLP的形式让他们自己去学习权重:

1.候选记忆单元

        除了以上三个门以外,还有一个候选记忆单元的设计,没有用到其他gait:

2.记忆单元

        记忆单元结合了上一个时间的记忆单元和遗忘门的交互,以及这个时间的候选记忆单元和输入门的交互,所以记忆单元会不断地接受以前和现在做一个信息储存和更新。

        注意这里面的激活函数是为了控制数值范围。 

3.隐状态

         输出门会和记忆单元交互得到新的隐状态。


 总结

长短期记忆网络(Long Short-Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU)都是用于解决循环神经网络(Recurrent Neural Network,RNN)中长序列依赖性问题的变体。它们在处理序列数据时相较于传统的RNN模型表现更好,因为它们能够更有效地捕捉和利用序列中的长期依赖关系。

以下是LSTM和GRU的主要特点和区别:

长短期记忆网络(LSTM):

  1. 结构: LSTM引入了三个门(输入门、遗忘门和输出门)以及一个记忆单元来处理长期依赖关系。

  2. 门控机制:

    • 输入门(Input Gate): 控制有多少新信息可以流入记忆单元。
    • 遗忘门(Forget Gate): 控制有多少过去的记忆可以被遗忘。
    • 输出门(Output Gate): 决定记忆单元的输出。
  3. 记忆单元: LSTM包含一个记忆单元,它可以保存和提取信息,并通过时间步骤传递信息。

  4. 应用: 由于其较复杂的结构,LSTM常常在需要处理长期依赖性的任务中表现良好,如机器翻译、语音识别等。

门控循环单元(GRU):

  1. 结构: GRU相对于LSTM结构更为简单,只包含两个门(更新门和重置门)。

  2. 门控机制:

    • 更新门(Update Gate): 控制有多少过去的记忆被保留。
    • 重置门(Reset Gate): 决定多少过去的信息应该被忽略。
  3. 记忆单元: GRU没有显式的记忆单元,而是直接传递隐藏状态作为记忆。

  4. 应用: GRU在一些轻量级的序列建模任务中表现良好,同时也因其简单的结构而更容易训练。

共同点:

  1. 门控机制: LSTMs和GRUs都引入了门控机制,以便网络可以自适应地决定在每个时间步骤中保留或丢弃信息。

  2. 应对梯度消失问题: 两者都设计得更好地应对了RNN中常见的梯度消失问题,使得它们更适合处理长序列。

选择使用LSTM还是GRU通常取决于任务的性质和规模。在某些情况下,LSTM可能由于其更强大的建模能力而更为适用,而在其他情况下,GRU的简单性和较小的参数量可能更有优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/226461.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode:LCR 143. 子结构判断 | 二叉树 + 递归】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

【12.28】转行小白历险记-刷算法04

01两两交换链表中的节点 整体思路 1.要修改后一个节点的指向一定要知道前一个节点的指向才可以改变后面一个节点的 2.分情况奇数和偶数节点,终止条件很重要 3.虚拟头节点,是对我们操作的指针是不是头节点进行判断 02删除链表的倒数第N个节点 思路 …

第十一章 Stream消息驱动

Stream消息驱动 gitee:springcloud_study: springcloud:服务集群、注册中心、配置中心(热更新)、服务网关(校验、路由、负载均衡)、分布式缓存、分布式搜索、消息队列(异步通信)、数据库集群、…

fastadmin想自定义表格的样式,可以使用模板渲染并在模板中调用自定义的方法

fastadmin 如何在模板中使用自定义的方法 比如页面上要对返回的时间&#xff0c;电话&#xff0c;身份证做处理 html页面 <script type"text/html" id"itemtpl"><span id"<%item.id%>" class"margins mobile"><…

企业品牌推广在国外媒体投放的意义和作用何在?

海外广告投放是企业在国际市场推广的重要战略&#xff0c;具有多种形式&#xff0c;包括社交媒体广告、短视频广告、电视广告等。这些广告形式在传播信息、推动销售、塑造品牌形象等方面发挥着独特的作用。 其中软文发稿是一种注重叙事和信息传递的广告形式&#xff0c;对于企…

【pynput】鼠标行为追踪并模拟

文章目录 前言基本思路安装依赖包实时鼠标捕获捕获鼠标位置捕获鼠标事件记录点击内容效果图 实时按键捕获控制按键操作捕获按键事件组合键记录区间设置 用户操作记录与回溯基本思路完整代码效果图 利用本文内容从事的任何犯法行为和开发与本人无关&#xff0c;请理性利用技术服…

【强化学习】基于蒙特卡洛MC与时序差分TD的简易21点游戏应用

1. 本文将强化学习方法&#xff08;MC、Sarsa、Q learning&#xff09;应用于“S21点的简单纸牌游戏”。 类似于Sutton和Barto的21点游戏示例&#xff0c;但请注意&#xff0c;纸牌游戏的规则是不同且非标准的。 2. 为方便描述&#xff0c;过程使用代码截图&#xff0c;文末附链…

【Spark精讲】一文讲透Spark RDD

MapReduce的缺陷 MR虽然在编程接口的种类和丰富程度上已经比较完善了&#xff0c;但这些系统普遍都缺乏操作分布式内存的接口抽象&#xff0c;导致很多应用在性能上非常低效 。 这些应用的共同特点是需要在多个并行操 作之间重用工作数据集 &#xff0c;典型的场景就是机器学习…

Vue(一):Vue 入门与 Vue 指令

Vue 01. Vue 快速上手 1.1 Vue 的基本概念 用于 构建用户界面 的 渐进性 框架 构建用户界面&#xff1a;基于数据去渲染用户看到的界面渐进式&#xff1a;不需要学习全部的语法就能完成一些功能&#xff0c;学习是循序渐进的框架&#xff1a;一套完整的项目解决方案&#x…

Django Cookie和Session使用(十一)

一、Cookie Cookie具体指一小段信息&#xff0c;它是服务器发送出来存储在浏览器上的一组键值对&#xff0c;下次访问服务器时浏览器会自动携带这些键值对&#xff0c;以便服务器提取有用信息。 Cookie的特性 1、服务器让浏览器进行设置的 2、保存在浏览器本地&#xff0c;…

linux 网络工具(二)

linux 网络工具 1. ip命令簇4.1 address4.2 link4.3 route4.4 rule 2. 其他常用命令2.1 ifup/ifdown2.2 配置主机名2.3 设置DNS服务器指向2.4 配置域名解析2.5 ss2.6 路由相关配置文件2.7 查看机器可用端口2.8 traceroute2.9 dhclient 1. ip命令簇 Linux的ip命令和ifconfig类似…

微信小程序picker组件扩展选择时间到秒插件

创建插件seldatetime // 插件JS部分 Component({// 一些选项options: {// 样式隔离&#xff1a;apply-shared 父影响子&#xff0c;shared父子相互影响&#xff0c; isolated相互隔离styleIsolation:"isolated",// 允许多个插槽multipleSlots: true},// 组件的对外属…

机器学习三要素与拟合问题

1.如何构建机器学习模型&#xff1f; 机器学习工作流程总结 1.获取数据 2.数据基本处理 3.特征工程 4.机器学习(模型训练) 5.模型评估 结果达到要求&#xff0c;上线服务&#xff0c;没有达到要求&#xff0c;重新上面步骤 我们使用机器学习监督学习分类预测模型的工作流…

SLF4J: Class path contains multiple SLF4J bindings.解决

背景 项目正常运行几年&#xff0c;近期优化调整修复漏洞&#xff0c;依赖升级后cleaninstall 重启发现项目启动失败&#xff0c;访问所有接口都报错404 错误信息 output输出异常信息截图 tomcat 打印异常信息截图 output打印异常信息详情 D:\javaRuanJian\Tomcat\apach…

人工智能的新篇章:深入了解大型语言模型(LLM)的应用与前景

LLM&#xff08;Large Language Model&#xff09;技术是一种基于深度学习的自然语言处理技术&#xff0c;旨在训练能够处理和生成自然语言文本的大型模型。 LLM 技术的核心思想是使用深度神经网络&#xff0c;通过大规模的文本数据预训练模型&#xff0c;并利用这些预训练模型…

linux 防火墙查看放行端口,追加放行端口命令

linux 查看防火墙已经放行端口列表 firewall-cmd --list-ports 运行结果如下&#xff1a; linux 追加防火墙经放行端口&#xff08;如追加443&#xff09; firewall-cmd --zonepublic --add-port443/tcp --permanent 亲测有效&#xff01;

【WPF.NET开发】路由事件

本文内容 先决条件什么是路由事件&#xff1f;路由策略为什么使用路由事件&#xff1f;附加并实现路由事件处理程序类处理程序WPF 中的附加事件XAML 中的限定事件名称WPF 输入事件EventSetter 和 EventTrigger Windows Presentation Foundation (WPF) 应用程序开发人员和组件…

FileZilla的使用主动模式与被动模式

&#x1f3ac; 艳艳耶✌️&#xff1a;个人主页 &#x1f525; 个人专栏 &#xff1a;《产品经理如何画泳道图&流程图》 ⛺️ 越努力 &#xff0c;越幸运 目录 一、FileZilla简介 1、FileZilla是什么&#xff1f; 2、FileZilla的应用场景 二、FileZilla的安装 1、下…

【直播预告】刘军博士:科学研究中的AI计算:何助力团队协作创新

【直播预告】随着数据、算法、算力的融合发展&#xff0c;AI已经成为科学和工程研究的不可或缺的力量&#xff0c;涉足药物设计、天气预测、新材料研发等领域。在AI领域&#xff0c;协作是关键。欢迎大家关注12月28日20:00九章云极资深数据科学家刘军博士的直播&#xff01;刘军…

HLS 2017.4 导出 RTL 报错:ERROR: [IMPL 213-28] Failed to generate IP.

软件版本&#xff1a;HLS 2017.4 在使用 HLS 导出 RTL 的过程中产生如下错误&#xff1a; 参考 Xilinx 解决方案&#xff1a;https://support.xilinx.com/s/article/76960?languageen_US 问题描述 DESCRIPTION As of January 1st 2022, the export_ip command used by Vivad…