【王树森】Transformer模型(2/2): 从Attention层到Transformer网络(个人向笔记)

Single Head Self-Attention

上节课讲到的属于单头注意力:
在这里插入图片描述


Multi-Head Self-Attention

  • 使用 l l l 个单头注意力层堆叠成一个多头注意力层,注意它们之间不共享参数
  • 一个单头注意力有 3 个参数矩阵,所以多头注意力有 3 l 3l 3l 个参数矩阵
  • 我们把多个单头注意力的输出做concatenation,就能得到多头注意力的输出
    在这里插入图片描述

Multi-Head Attention

和上面讲到的类似,我们把单头注意力堆叠起来,就能得到一个多头注意力
在这里插入图片描述


Stacked Self-Attention Layers

  • 在上面的多头自注意力层上的输出再接一个全连接层,对于每个输出的全连接层共享参数,将它们和 W U W_U WU 进行计算后丢到一个激活函数ReLU里面
    在这里插入图片描述
  • 在此基础上可以网上堆多头自注意力层,这个的道理和多层RNN是一样的:
    在这里插入图片描述
  • Transformer一个Block的encoder的输入和输出都是一个 512 × m 512×m 512×m 的矩阵,其中 512 512 512 是向量的维度, m m m 是向量的个数,用符号可以这样表示,其中 X \boldsymbol{X} X 表示矩阵: X ∈ R 512 × m \boldsymbol{X} \in \mathbb{R}^{512×m} XR512×m
    在这里插入图片描述
  • 这样我们就可以把Block堆叠起来,Block之间不共享参数,Transformer里面一共堆叠了6个Block
    在这里插入图片描述

Blocked Attention Layers

  • decoder需要先堆叠一个Self-Attention层:
    在这里插入图片描述
  • 之后堆叠一个多头注意力层
    在这里插入图片描述
  • 最后对所有的输出都映射到 s s s 向量:
    在这里插入图片描述
  • 对于decoder的一个Block是这样的:其中需要输入两个序列,都是512维的向量,长度分别为 m m m t t t ,如果是英译德的话,那么 m m m 就是英语单词的数量, t t t 就是已经生成的德语单词的数量:
    在这里插入图片描述
  • 堆叠decoder层:图的左边是刚刚堆叠的encoder层,右边是堆叠的decoder层,其中decoder层接受两个输入,一个输入来自encoder,一个输入来自 X X X 或自身decoder的输出,最后输出和输入 X X X 的维度一样
    在这里插入图片描述
  • 与RNN的Seq2Seq模型的输入大小完全一致,所以以前RNN的Seq2Seq模型能做的,Transformer也能做

Summary

把单头多个attention堆叠起来就能得到多头注意力,其中参数是独立的,不共享:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/413292.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker文档

一、docker概述 1、java项目通过docker打包成镜像(包含了所有的环境)放到docker仓库中,只需要下载发布的镜像直接运行即可; 2、虚拟机技术的缺点: 资源占用多、冗余步骤多、启动很慢 容器化技术: 比较do…

色彩与笔触的交响:广州米塔在线科教技术有限公司揭秘PS绘画秘籍!

在数字艺术的广阔天地里,PS无疑是一颗璀璨的明星,它不仅在图像处理领域独领风骚,更以其强大的功能成为了众多艺术家和设计师进行数字绘画的首选工具。广州米塔在线科教技术有限公司,作为致力于艺术教育与技术分享的平台,深知掌握P…

RNN及其变体

RNN及其变体 RNN模型定义 循环神经网络:一般接受的一序列进行输入,输出也是一个序列 作用和应用场景: RNN擅长处理连续语言文本,机器翻译,文本生成,文本分类,摘要生成 RNN模型的分类 根据输入与输出结构 N Vs N : 输入和输出等长,应用场景:对联生…

科技改变搜索习惯:Anytxt Searcher,重新定义你的信息获取方式!

前言 史蒂夫乔布斯所言:“创新就是把事物联系起来的能力”。这种能力不仅推动了全球科技的飞速发展,也深刻影响着我们的日常生活方式。在这样的背景下,一款名为Anytxt Searcher的本地数据全文搜索引擎应运而生,它以其独特的功能和…

【Android】使用 ADB 查看 Android 设备的 CPU 使用率

目录 一 查看整体CPU使用率 1 top 二 查看特定应用的CPU使用率 1 获取特定应用的进程 ID (PID) 2 使用 top 命令并过滤该 PID 三 常见的CPU相关命令参数 1 adb shell top 参数 一 查看整体CPU使用率 1 top top命令将显示当前所有进程的 CPU 使用情况,包括每…

【Datawhale AI夏令营】从零上手CV竞赛Task3

文章目录 前言一、数据集增强二、设置 YOLO 模型训练参数三、模型微调总结 前言 本文的Task3对Task1的baseline代码继续进行优化的过程。 一、数据集增强 数据增强是机器学习和深度学习中常用的技术,用于通过从现有数据集中生成新的训练样本来提高模型的泛化能力。…

gitee版本控制

前置要求: 安装Git git下载地址:https://git-scm.com/download/win 注册gitee gitee官网:Gitee - 基于 Git 的代码托管和研发协作平台 创建普通项目 目录 git推送远程仓库基本操作 克隆仓库到本地 项目上传 版本管理 分支管理版本…

基于ssm的实习课程管理系统/在线课程系统

实习课程管理系统 摘 要 互联网的快速发展,给各行各业带来不同程度的影响,悄然改变人们的生活、工作方式,也倒逼很多行业创新和变革,以适应社会发展的变化。人们为了能够更加方便地管理项目任务,实习课程管理系统被人们…

55.基于IIC协议的EEPROM驱动控制(2)

升腾A7pro的EEPROM芯片为24C64芯片,器件地址为1010_011。 (1)Visio整体设计视图(IIC_SCL为250KHz,IIC_CLK为1MHz,addr_num为1,地址字节数为2字节,addr_num为0,地址字节数…

产品经理的学习笔记(全集)-持续更新

1.前言 产品经理不是一个软件,也不是一个专业技能,是一个思维量变的过程;内容介绍:P1-产品经理基础认知;P2-从0-1搭建实战项目(电商) 2.产品经理基础 2.1产品经理定义 产品管理--产品的设计…

【手撕数据结构】二叉树oj题

目录 单值二叉树题目描述题目思路及代码 相同的树题目描述题目思路及代码 对称二叉树题目描述题目思路及代码 另一棵树的子树题目描述题目思路及代码 二叉树的前序遍历题目描述题目思路及代码 二叉树的构建与遍历题目描述题目思路及代码 单值二叉树 题目描述 题目思路及代码 …

SAP LE学习笔记07 - MM与WM跨模块收货到仓库的流程中 如何实现 先上架再入库

上一章讲了LE中收货的一些特殊情况: 1,MM模块收货时,特别移动指标来标识的物料直接产生TO 2,MM中直接收货到仓库的固定Storage Bin(棚番)上 SAP LE学习笔记06 - MM与WM跨模块收货到仓库的流程中 带特别移动指标的物料也可以直接…

怎么将日常的文件做成二维码?文件二维码的在线转换方法

文件做成二维码来展示的应用场景越来越多,可以通过二维码在存储文件的同时,提供文件预览以及下载服务,并且二维码没有时效限制,能够长期提供内容展示服务,更符合现在的展示需求。那么文件生成二维码比较简单的方法可以…

黑屏环境下,如何利用OBD部署OceanBase企业版集群

一、前言 OBD,作为OceanBase官方推出的部署工具,显著简化了OB单机及集群的部署流程。此前,OBD能够支持对社区版OB进行一键部署,那OBD是否同样支持OB企业版的部署呢? 本文为大家介绍通过OBD,在OB企业版集群…

(最新)华为 2024 届秋招-硬件技术工程师-单板硬件开发—机试题—(共12套)(每套四十题)

(最新)华为 2024 届秋招-硬件技术工程师-单板硬件开发—机试题—(共12套)(每套四十题) 岗位——硬件技术工程师 岗位意向——单板硬件开发 真题题目分享,完整版带答案(有答案和解析&#xff0…

「青鸟」作家导演起飞计划,助人才转型,共铸电影市场新活力

2024年6月,《上海市电影高质量发展三年行动计划》发布「青鸟」作家导演起飞计划应运而生(下文简称「青鸟计划」)。作为全国首个协助作家跨界转型、用画面讲好故事的扶持平台,青鸟计划重视电影的文学性,通过专业人士搭建…

关于lua调用DLL的c/c++动态库(相关搜索:数据库)

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

访问者模式详解

访问者模式 简介: 类的内部结构不变的情况下,不同的访问者访问这个对象都会呈现出不同的处理方式。 人话: 其实就是为了解决类结构不变但操作处理逻辑易变的问题,把对数据的操作都封装到访问者类中, 我们只需要调用不同的访问者,…

python脚本开头怎么写

在python开发的过程中,脚本开头非常重要。 第一行:告诉操作系统python装在哪里(是通过env中查询,然后再调到对应的解析器完成运行)。 第二行:是声明文件的编码格式以utf-8。 其他则为这个文件信息&#…

RTX5源码全家桶集成emWin6.40, Modbus主从,含FreeRTOS版, 探讨一种移植第3方组件通用方法以及使用注意事项2024-08-30

视频: https://www.bilibili.com/video/BV1tFHuenESf RTX5源码全家桶集成emWin6.40, Modbus主从,含FreeRTOS版, 探讨一种移植第3方组件的通用方法以及多任务使用注意事项 提纲: 参考资料: 1、例程下载 RTX5 All In One(2024-08-30 V2.0).7…