DataWhale AI夏令营-《李宏毅深度学习教程》笔记-task3

DataWhale AI夏令营-《李宏毅深度学习教程》笔记-task2

  • 第五章 循环神经网络
    • 5.1 独热编码
    • 5.2 RNN架构
    • 5.3 其他RNN
      • 5.3.1 Elman 网络 &Jordan 网络
      • 5.3.2 双向循环神经网络

第五章 循环神经网络

循环神经网络RNN,RNN在处理序列数据和时间依赖性强的问题上具有独特的优势,尤其是在自然语言处理和时间序列预测领域。
由图可知RNN的输入来自于上一层的输出结果和当前层的输入,所以RNN常被用来预测金融市场、气象等领域,通过分析过去的数据序列预测未来的趋势。
在这里插入图片描述
但是这种RNN的结果有很大的缺陷就是,当进行长序列预测时,RNN可能会由于序列较长遗忘了之前某些重要信息,导致预测精度下降。

为了解决RNN长序列遗忘问题,长短记忆网络LSTM被开发出来,通过引入三个“门”机制来管理记忆的存储、更新和删除,这使得它能够更有效地捕捉长期依赖关系。这三个门分别是输入门、遗忘门和输出门,如下图,it作为输入门;ft作为遗忘门;ot作输出门。
在这里插入图片描述
除了LSTM之外,Transformer架构也很好解决了RNN所面临的长期依赖和计算效率问题,并且Transformer架构目前也被广泛的应用于大模型领域,也取得了很好的效果。
Transformer架构的核心包括以下三个方面:

  1. 自注意力机制(Self-Attention): 自注意力机制是 Transformer的核心。它通过计算输入序列中每个元素与其他所有元素之间的相似性(注意力权重),并根据这些权重加权和更新每个元素的表示。这样,模型能够捕捉到序列中元素之间的依赖关系,而不受元素位置的限制。
  2. 位置编码(Positional Encoding): 由于 Transformer模型不依赖序列顺序,它需要一种方法来表示输入序列中元素的位置。位置编码是一种向量,它被添加到输入的嵌入向量中,用来保留序列的位置信息。
  3. 多头注意力机制(Multi-Head Attention):多头注意力机制通过将自注意力机制应用于多个不同的“头”,从不同的子空间中学习信息。这样可以捕捉到更多样化的依赖关系,并提高模型的表达能力。
    在这里插入图片描述

5.1 独热编码

回归本书正题,独热编码(one-hot)编码,常被用在自然语言处理领域多标签多分类等任务中。编码形式如图所示,即对应维度标签为1,其余为0。
在这里插入图片描述

5.2 RNN架构

其实前面提到过了RNN架构,书中给出的例子如下图,其实也就是之前提到过的每一层的输出不知取决于当前层的输入还有上一层的输出有关,书中给出的解释是,上一层的输出结果会储存在记忆层中,这时候当前隐藏层预测结果会同时考虑当前的输入与记忆层的内容。
请添加图片描述

5.3 其他RNN

5.3.1 Elman 网络 &Jordan 网络

Jordan 网络,Jordan 网络存的是整个网络输出的值,它把输出值在下一个时间点在读进来,把输出存到记忆元里。Elman网络没有目标,很难控制说它能学到什么隐藏层信息(学到什么放到记忆元里),但是Jordan网络是有目标,比较很清楚记忆元存储的东西。
请添加图片描述

5.3.2 双向循环神经网络

循环神经网络还可以是双向,即双向循环神经网络(Bidirectional Recurrent Neural Network,Bi-RNN)。如图,假设句子里的每一个单词用 xt 表示,其是先读 xt,再读 xt+1、xt+2。但其读取方向也可以是反过来的,它可以先读xt+2,再读xt+1、xt。我们可以同时训练一个正向的循环神经网络,又可以训练一个逆向的循环神经网络,然后把这两个循环神经网络的隐藏层拿出来,都接给一个输出层得到最后的yt。所以把正向的网络在输入xt 的时候跟逆向的网络在输入 xt 时,都丢到输出层产生 yt,产生 yt+1,yt+2,以此类推。
双向循环神经网络的好处是,神经元产生输出的时候,它看的范围是比较广的。
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/415658.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

51单片机——实时时钟

1、DS1302介绍 DS1302是由美国DALLAS公司推出的具有涓细电流充电能力的低功耗实时时钟芯片。它可以对年、月、日、周、时、分、秒进行计时,且具有闰年补偿等多种功能 RTC(Real Time Clock):实时时钟,是一种集成电路,通常称为时钟…

机器学习项目——基于机器学习(RNN LSTM 高斯拟合 MLP)的锂离子电池剩余寿命预测方法研究(代码/论文)

完整的论文代码见文章末尾 以下为核心内容和部分结果 摘要 机器学习方法在电池寿命预测中的应用主要包括监督学习、无监督学习和强化学习等。监督学习方法通过构建回归模型或分类模型,直接预测电池的剩余寿命或健康状态。无监督学习方法则通过聚类分析和降维技术&…

VS-E5PH3006L-N3 600V 30A 高效低损耗整流器 二极管 电动 / 混动汽车电池充电的可靠之选

VS-E5PH3006L-N3参数特性: 反向电压(VR):600V,这表示该整流器在电路中能承受的最大反向电压为 600 伏特,超过此电压可能会导致器件损坏。平均整流电流(IF (AV)):30A&…

【系统架构设计】嵌入式系统设计(2)

【系统架构设计】嵌入式系统设计(2) 嵌入式网络系统嵌入式 Internet 的接入方式嵌入式 TCP/IP 协议栈 嵌入式数据库管理系统数据的一致性高效的事务处理数据的安全性 实时系统与嵌入式操作系统对实时系统划分根据实时性的强弱根据对错失时限的容忍程度或…

Linux学习-虚拟化平台安装和使用

注:系统使用Rock8.6 下载链接 通过百度网盘分享的文件:cirros.qcow2,node_base.xml等2个文件 链接:https://pan.baidu.com/s/1hupGQsMjrXMgngCy3lQLhw?pwdhlr6 提取码:hlr6[rootharbor ~]# cat /etc/redhat-releas…

《Class-Agnostic Counting》CVPR2018

概述 摘要:这篇论文提出了一种用于对象计数的模型,该模型能够计算任何类别的对象,而不需要针对特定对象类别进行设计。作者将计数问题表述为一个匹配问题,利用图像中自然存在的自相似性属性。论文的贡献包括:提出了一…

软件工程知识点总结(1):软件工程概述

1 什么是软件? 定义:计算机系统中的程序及其文档。 ——程序是计算机任务的处理对象和处理规模的描述; ——文档是为了便于了解程序所需要的阐明性资料。 2 软件的特点? 软件是无形的,不可见的逻辑实体 ——它的正确与…

人到中年,越发明白,随缘是成年人之间最好的社交状态

​时光荏苒,转眼间,我们已从青涩少年步入沉稳中年。 在这个阶段,我们经历了职场的起起落落,家庭的悲欢离合,也见证了身边人的种种变化。 正如屠格涅夫所言:“凡事只要看得淡些,就没有什么可忧…

C程序设计——指针杂谈0

变量和常量讲的差不多了,这里先把指针再深入理解一下,如果你是C语言初学者,本节可能看不太懂,没关系可以以后再看。 变量 当定义变量的时候,本质是在内存中分配了一段空间,这段空间的大小与变量的类型相关…

Hackme靶机通关攻略

1.首先注册用户,登录 2.登录后,显示让我们查找自己喜欢的书,我们直接单击search,会列出很多书 3.随便选择一本书进行查询,与此同时进行抓包 4.放到重放器中,将数据改为1*,将数据包另存为1.txt&a…

Python pip 更换镜像源

文章目录 1 概述1.1 默认镜像,速度慢,易报错1.2 常用国内镜像源 2 更改镜像源2.1 临时更改2.2 永久更改2.2.1 查看配置源及配置文件2.2.2 编辑 pip.ini2.2.3 配置后的效果 1 概述 1.1 默认镜像,速度慢,易报错 默认镜像&#xff…

Win32设备I/O详解

Windows设备 在Windows平台下,设备被定义为能够与之进行通信的任何东西。最常见的 I/O 设备包括:文件、文件流、目录、物理磁盘、卷、控制台缓冲区、磁带驱动器、通信资源、mailslot 和管道等。 平常我们使用的文件,目录都可以称之为设备。…

MES系统:现代工厂生产车间的科技与管理创新

一、现代工厂生产车间:高度集成、自动化与智能化 在当今这个日新月异的工业时代,工厂生产车间已经远远超越了传统意义上的简单生产线概念,它们正逐步演变为一个高度集成、自动化与智能化的生态系统。这一变革不仅极大地提升了生产效率&#…

文件包含PHP伪协议利用方法

1、file 使用file协议读取Windows系统文件 2、php:filter协议 使用php://filter协议可以将php代码进行base64编码后显示出来 3、php://input 使用php://input协议可以将post请求的数据作为php代码运行 访问该协议并进行抓包 修改请求方式为POST 在下方输入php代码 点击forw…

【GIT】idea中实用的git操作,撤回commit,撤回push、暂存区使用

IDEA中最常见的UI操作:【GIT】Idea中的git命令使用-全网最新详细(包括现象含义) 文章目录 问题一: idea撤回仅commit错误的代码(仅本地仓库,因为还没推送到远程)问题二: idea撤回Com…

c++--智能指针(RAII)

智能指针可以帮助我们管理动态空间,即自动释放动态空间。 --------------------------------------------------------------------------------------------------------------------------------- 简单原理 事实上,智能指针的原理就是将指向动态空间…

浅谈人工智能之Windows:基于ollama进行本地化大模型部署

浅谈人工智能之Windows:基于ollama进行本地化大模型部署 引言 随着人工智能技术的飞速发展,大型语言模型(LLMs)已经成为推动自然语言处理领域进步的关键力量。然而,传统的云部署方式可能带来数据隐私、成本以及访问速…

【滑动窗口】将 x 减到 0 的最小操作数

将 x 减到 0 的最小操作数 将 x 减到 0 的最小操作数题目思路讲解代码书写 将 x 减到 0 的最小操作数 题目 题目链接: 将 x 减到 0 的最小操作数 思路讲解 按照题目的思路去做这一题是非常恶心的, 因此我们采用正难则反思路. 将问题转换为: 求中间某一个最长的数组长度, 使…

hyperf json-rpc

安装 安装docker hyperf 安装 hyperf-rpc-server-v8 (服务端) docker run --name hyperf-rpc-server-v8 \ -v /www/docker/hyperf-rpc-server:/data/project \ -w /data/project \ -p 9508:9501 -it \ --privileged -u root \ --entrypoint /bin/sh \…

Unity学习路线

目录 一、Unity官方推荐路线二、AI总结的学习路线1、Unity学习路线图(文言一心)一、基础入门(初级)二、进阶提升(中级)三、高级深入(高级)四、专家级探索 注意事项 2、Unity学习路线…