Transformer详解【学习笔记】

文章目录

      • 1、Transformer绪论
      • 2、Encoders和Decoder
        • 2.1 Encoders
          • 2.1.1 输入部分
          • 2.1.2 多头注意力机制
          • 2.1.3 残差
          • 2.1.4 LayNorm(Layer Normalization)
          • 2.1.5 前馈神经网路
        • 2.2 Decoder
          • 2.2.1 多头注意力机制
          • 2.2.2 交互层

1、Transformer绪论

Transformer在做一个什么事情?Transformer可以用在机器翻译中,先不要管TRM(Transformer的缩写)具体做什么,输入是【我爱你】,输出是【I Love You】,

在这里插入图片描述

然后再细化TRM,我们把TRM分成2个部分,一个是Encoders(编码),Decoders(解码),

在这里插入图片描述

然后再对Encoders(编码),Decoders(解码)进行细化,如下图,需要注意Encoders之间的结构是相同的,Decoders之间的结构也是相同的,虽然Encoders和Decoders之间各自的结构是相同的,但是是单独训练的,Encoders和Decoders的数量是超参数,可以自己定义,

在这里插入图片描述

Transformer在原论文中的图示如下,左边是Encoders,右边是Decoders,N是相同结构的堆叠次数,

在这里插入图片描述

2、Encoders和Decoder

2.1 Encoders

把单个Encoders分成3个部分,分别是1、输入部分,2、注意力机制,3、前馈神经网络,

在这里插入图片描述

2.1.1 输入部分

输入部分分为Embedding和位置嵌入,什么是Embedding呢?

Embedding:

比如输入的词是【我爱你。。。】等12个字,分别将每个字输出为512维度的vector,vector可以使用word2vector,或者随机初始化,

在这里插入图片描述

位置编码:

为什么需要位置编码?如下图是RNN的结构图,RNN共享一套参数,如下图中的 U , W , V U,W,V U,W,V,依次对输入的【我爱你。。。】等字进行处理。transformer中的multi-head attention是同时对这些字进行处理,好处是加快了速度,缺点是忽略了字与字之间的联系,为了弥补这个缺点,就引入了位置编码,
面试题:RNN的梯度消失有什么不同? RNN的梯度是整个梯度之和,它的梯度消失不是变为0,而是总梯度被近距离梯度主导,远距离可忽略不计,

在这里插入图片描述

位置编码的公式:
pos是位置, 2 i 2i 2i是偶数位置, 2 i + 1 2i+1 2i+1是奇数位置,

在这里插入图片描述

比如对于【爱】而言,它是1号位,所以应该用cos,

在这里插入图片描述

对于【爱】这个词,将字向量的512个维度和位置编码的512个维度相加组成transformer的输入,

在这里插入图片描述

引申一下,为什么位置编码会有用?

由公式(2)得到公式(3),比如对于 P E ( p o s + k , 2 i ) PE(pos+k,2i) PE(pos+k,2i),pos这个位置表示【我】,k这个位置表示【爱】,pos+k表示【你】,从这个公式可以看出,【你】可以由pos【我】和k【爱】的线性组合,意味着绝对位置向量中蕴含着相对位置信息,但是这种相对位置信息会在注意力机制那里消失

在这里插入图片描述

2.1.2 多头注意力机制

注意力机制
看下图婴儿在干嘛?我们可能会关注婴儿的脸,以及文字标题信息,颜色越深,关注度就越高,

在这里插入图片描述

transformer论文注意力机制公式:
Q , K , V Q,K,V Q,K,V是向量,分别代表Query,Key,Value,

在这里插入图片描述

  • 下面来解释这个公式,还是拿上面婴儿的图片举例,首先Query代表的婴儿分别与Key1,Key2,Key3,Key4做点乘,点乘是一个向量在另一个向量投影的长度,它是一个标量,可以反映2个向量之间的相似度,相似度越高,则点乘结果越大,
  • Query代表的婴儿分别与左上,左下,右上,右下做点乘,得到Value1,Value2,Value3,Value4,哪个Value最大说明Query和哪个区域相似度最高,距离最近,也就是越关注哪个区域,
  • 回到上面的公式,假如 Q Q Q K T K^T KT的相乘的结果分别为0.7,0.1,0.1,0.1,做softmax之后,再分别乘以0.7,0.1,0.1,0.1,再相加得到Attention Value,

在这里插入图片描述

下面再举一个NLP的例子,Query代表【爱】,分别与Key1,Key2,Key3,Key4代表的【我】,【不】,【爱】,【你】做点乘,具体步骤如下2图,

在这里插入图片描述


在这里插入图片描述

想要得到Attention,需要知道 Q , K , V Q,K,V Q,K,V这3个向量,我们怎么获取这3个向量呢?

在这里插入图片描述

在只有单词向量的情况下,如何获取 Q K V QKV QKV,如下图输入【Thinking】,【Machines】,把输入Embedding为4维向量,然后分别与 W Q W^Q WQ W K W^K WK W V W^V WV相乘,就得到相应的 Q K V QKV QKV

在这里插入图片描述

如何计算Attention的值呢?由公式可知, q q q k k k相乘,然后再除以 d k \sqrt{d_k} dk ,载经过softmax计算,再乘以 v v v即可得到最终结果 z z z

在这里插入图片描述

实际代码使用矩阵,方便并行,

在这里插入图片描述

  • 多头注意力机制,上图是乘以一套参数,下图是乘以多套参数。
  • 作者通过做实验,发现多头比单头的效果要好,因为可以把输入映射到不同的空间,使transformer捕捉到不同空间的子信息,

在这里插入图片描述

输入信息通过不同的头输出不同的 z z z,如下图,把8个不同的 z z z合在一起输出,

在这里插入图片描述

2.1.3 残差

如下图,将【Thinking】和【Machine】分别转为词向量 X 1 X_1 X1 X 2 X_2 X2,然后分别与各自的位置编码对位相加,得到新的 X 1 X_1 X1 X 2 X_2 X2,然后经过自注意机制得到 Z 1 Z_1 Z1 Z 2 Z_2 Z2 Z 1 Z_1 Z1 Z 2 Z_2 Z2变成一个矩阵 Z Z Z,新的 X 1 X_1 X1 X 2 X_2 X2变成一个矩阵 X X X X X X Z Z Z对位相加,

在这里插入图片描述

残差结构:

如下图是常见的残差结构,

在这里插入图片描述

这里是另一个残差结构,结构和上图类似,A相当于上图中的 X X X,B和C相当于上图中的2个weight layer,D相当于上图中的 F ( X ) + X F(X)+X F(X)+X

在这里插入图片描述

为什么残差结构有用呢?如下公式推导,使用残差结构可以避免梯度消失,因为一般情况下连乘可以使梯度消失,所以NLP模型可以做的更深,

在这里插入图片描述

2.1.4 LayNorm(Layer Normalization)
  • 为什么BN的效果不如LayNorm?
  • 答:BN的效果差,所以不用,
  • 什么是BN,以及使用场景,BN是针对整个batch样本在同一维度特征中做处理,
  • 什么是Feature Scaling?消除量纲的影响,使模型收敛的更快,

在这里插入图片描述

每一个列是一个样本,每一行是同一个特征,

在这里插入图片描述

BN的优点:

  • 第一个就是可以解决内部协变量偏移,
  • 第二个优点就是缓解了梯度饱和问题 (如果使用sigmoid激活函数的话),加快收敛。

BN的缺点:

  • 第一个,batch_size较小的时候,效果差,因为BN的假设是使用一个batch的均值和方差模拟整个全部数据的均值和方差,
  • 第二个缺点就是 BN在RNN中效果比较差。这一点和第一点原因很类似,还有一点解释请看下一点,
  • 如下图,batchsize为10,9个样本单词数为5,1个样本单词数为20,前5个单词的均值和方差可以用batchsize算出来,而第6-20个单词的均值和方差只能用第10个样本的均值和方差表示,所以BN在RNN的效果不好,

在这里插入图片描述

为什么使用LayNorm?

  • 理解:为什么LayerNorm单独对一个样本的所有单词做缩放可以起到效果?
  • 如下图,LN是对第10个样本的20个单词做均值和方差,而BN是对每一个样本的同一位次的单词做均值和方差,

在这里插入图片描述

  • 把BN引申到RNN,BN是对【我】和【今】做均值和方差,【爱】和【天】做均值和方差,但是各个位次的单词没有相似的语义信息,所以在不能把BN引申到RNN,
  • 而LN是对每一个样本的所有单词做均值和方差,每一个样本之间有相同的语义信息,

在这里插入图片描述

2.1.5 前馈神经网路

Z 1 Z_1 Z1 Z 2 Z_2 Z2经过Feed Forward之后,经过残差和Normalize就是前馈神经网络,

在这里插入图片描述

2.2 Decoder

Decoder结构图如下:

在这里插入图片描述

2.2.1 多头注意力机制

需要对当前单词和之后的单词做mask。

在这里插入图片描述

  • 为什么需要做mask?
  • S代表输入的开始,start,如果Decoder没有mask,则会出现如下图的情形,即【you】的输出是由全部的单词决定,这样训练出来的模型在预测的时候就会出现问题,因为【you】的预测也由you和now决定,所以需要把you和now mask掉,

在这里插入图片描述


在这里插入图片描述

预测【you】的时候需要把you和now mask掉,

在这里插入图片描述

2.2.2 交互层

如下图红框处即为交互层,也是一个多头注意力机制,

在这里插入图片描述

ENCODER的所有输出和所有的DECODER做交互,

在这里插入图片描述

具体的交互过程如下,ENCODER生成K,V矩阵,DECODER生成Q矩阵,交互的时候是由Q,K,V矩阵完成的,

在这里插入图片描述

下图由ENCODER发出的虚线代表K,V矩阵的输出,然后K,V矩阵与DECODER生成的Q做交互,也能看到ENCODER的所有输出和所有的DECODER做交互,

在这里插入图片描述

参考:
1、哔站视频

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/236094.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ(十)队列的声明方式

目录 1.编程式声明补充:RabbitTemplate 和 AmqpAdmin 的区别 2.声明式声明补充:new Queue() 和 QueueBuilder.durable(queueName).build() 的区别 背景: 在学习 RabbitMQ 的使用时, 经常会遇到不同的队列声明方式,有的…

Redis管道操作

文章目录 1. 问题提出2. 解决方案3. 案例演示4. 总结 1. 问题提出 如何优化频繁命令往返造成的性能瓶颈? Redis是一种基于C/S一级请求响应协议的TCP服务,一个请求会遵循一下步骤: 客户端向服务端发送命令分四步(发送命令-> …

个人网站制作 Part 1 | Web开发项目

文章目录 👩‍💻 基础Web开发练手项目系列:个人网站制作🚀 项目概述🔧 开发工具和环境配置🛠 项目实现步骤步骤 1: 创建HTML文件步骤 2: 添加CSS样式步骤 3: 链接CSS文件步骤 4: 添加JavaScript交互 &#…

Unity中向量的点乘、叉乘区别和作用以及经典案例

文章目录 点乘(Dot Product)叉乘(Cross Product)向量归一化(Normalize)其他作用 unity开发中我们要计算角度,判断位置,常用点乘、叉乘、归一化等等,我们看看他们的使用案…

tiktok_浅谈hook ios之发包x-ss-stub

frida-trace ios手机一部,需要越狱的电脑一台idacrackerXI 目标app: ipa 包,点击前往 密码:8urs 协议分析起始从抓包开始,个人习惯 一般安卓逆向可以直接搜关键词,但是ios 都在 Mach-O binary (reverse…

微服务-Gateway

案例搭建 官网地址 父Pom <com.alibaba.cloud.version>2.2.8.RELEASE</com.alibaba.cloud.version> <com.cloud.version>Hoxton.SR12</com.cloud.version> <com.dubbo.version>2.2.7.RELEASE</com.dubbo.version> <dependencyManagem…

SQL-DML增删改

&#x1f389;欢迎您来到我的MySQL基础复习专栏 ☆* o(≧▽≦)o *☆哈喽~我是小小恶斯法克&#x1f379; ✨博客主页&#xff1a;小小恶斯法克的博客 &#x1f388;该系列文章专栏&#xff1a;重拾MySQL &#x1f379;文章作者技术和水平很有限&#xff0c;如果文中出现错误&am…

Zynq 电源

ZYNQ芯片的电源分PS系统部分和PL逻辑部分&#xff0c;两部分的电源分别是独立工作。PS系统部分的电源和PL逻辑部分的电源都有上电顺序&#xff0c;不正常的上电顺序可能会导致ARM系统和FPGA系统无法正常工作。 PS部分的电源有VCCPINT、VCCPAUX、VCCPLL和PS VCCO。 VCCPINT为PS内…

thinkphp美容SPA管理系统源码带文字安装教程

thinkphp美容SPA管理系统源码带文字安装教程 运行环境 服务器宝塔面板 PHP 7.0 Mysql 5.5及以上版本 Linux Centos7以上 基于thinkphp3.23B-JUI1.2开发&#xff0c;权限运用了Auth类认证&#xff0c;权限可以细分到每个功能&#xff0c; 增删改查功能一应俱全&#xff0c;整合了…

低维度向量的 Householder 反射变换 matlab 图示

1, 算法原理 设th 是一个弧度值&#xff0c; 令 Q | cos(th) sin(th) | | sin(th) -cos(th) | S span{ | cos(th/2.0) | } | sin(th/2.0) | x (x1, x2) 是一个平面上的二维向量 计算 y Qx Qx 则&#xff0c;y 是 x 通过有 S 定…

函数——自制函数(c++)

今天进入自制函数。 自制函数&#xff0c;需要自己定义其功能。比如&#xff0c;设置一个没有参数没有返回值的积木&#xff0c;叫“aaa”。那么&#xff0c;如果想要运行“aaa”&#xff0c;就需要以下代码&#xff1a; void aaa(); 告诉系统有“aaa”…

Java快速排序希尔排序归并排序

快速排序算法 快速排序的原理&#xff1a;选择一个关键值作为基准值。比基准值小的都在左边序列&#xff08;一般是无序的&#xff09;&#xff0c;比基准值大的都在右边&#xff08;一般是无序的&#xff09;。一般选择序列的第一个元素。 一次循环&#xff1a;从后往前比较&…

基于Python实现身份证信息识别

目录 前言身份证信息识别的背景与意义自动识别身份证的需求 实现环境与工具准备Python编程语言OpenCV图像处理库Tesseract OCR引擎 身份证信息识别算法原理图像预处理步骤(图像裁剪、灰度化 、二值化、去噪)信息提取与解析 Python代码实现通过OCR提取身份证号码代码解析身份证信…

【QML COOK】- 008-自定义属性

前面介绍了用C定义QML类型&#xff0c;通常在使用Qt Quick开发项目时&#xff0c;C定义后端数据类型&#xff0c;前端则完全使用QML实现。而QML类型或Qt Quick中的类型时不免需要为对象增加一些属性&#xff0c;本篇就来介绍如何自定义属性。 1. 创建项目&#xff0c;并编辑Ma…

【Linux驱动】Linux的中断系统 | 中断的重要数据结构

&#x1f431;作者&#xff1a;一只大喵咪1201 &#x1f431;专栏&#xff1a;《Linux驱动》 &#x1f525;格言&#xff1a;你只管努力&#xff0c;剩下的交给时间&#xff01; 目录 &#x1f3c0;Linux系统的中断⚽中断分类软中断和硬中断中断的上半部和下半部 ⚽tasklet⚽工…

基于uniapp封装的card容器 带左右侧两侧标题内容区域

代码 <template><view class"card"><div class"x_flex_header"><div><title v-if"title ! " class"title" :title"title" :num"num"></title></div><div><s…

系列四、Spring Security认证 授权(前后端不分离)

一、Spring Security认证 & 授权&#xff08;前后端不分离&#xff09; 1.1、MyWebSecurityConfigurerAdapter /*** Author : 一叶浮萍归大海* Date: 2024/1/11 21:50* Description:*/ Configuration public class MyWebSecurityConfigurerAdapter extends WebSecurityCo…

关注个人数据保护,肯尼亚发布新指南

近日&#xff0c;肯尼亚数据保护专员办公室&#xff08;ODPC&#xff09;发布了新的指导文件&#xff0c;旨在加强教育、通讯和数字信贷领域的数据保护措施&#xff0c;并提供了一个处理健康数据的通用指南。 这些指导意见是基于《数据保护法》&#xff08;DPA&#xff09;制定…

Appium 自动化测试

1.Appium介绍 1&#xff0c;appium是开源的移动端自动化测试框架&#xff1b; 2&#xff0c;appium可以测试原生的、混合的、以及移动端的web项目&#xff1b; 3&#xff0c;appium可以测试ios&#xff0c;android应用&#xff08;当然了&#xff0c;还有firefoxos&#xff09;…

《YOLO算法:基础+进阶+改进》报错解决 专栏答疑

前言&#xff1a;Hello大家好&#xff0c;我是小哥谈。《YOLO算法&#xff1a;基础进阶改进》专栏上线后&#xff0c;部分同学在学习过程中提出了一些问题&#xff0c;笔者相信这些问题其他同学也有可能遇到。为了让大家可以更好地学习本专栏内容&#xff0c;笔者特意推出了该篇…