深入理解Transformer的笔记记录(精简版本)---- Transformer

深入理解Transformer的笔记记录(精简版本)---- Transformer

news/2024/11/24 16:47:30/文章来源:https://blog.csdn.net/qq_40379132/article/details/142799437

自注意力机制开启大规模预训练时代

1 从机器翻译模型举例

1.1把编码器和解码器联合起来看待的话，则整个流程就是（如下图从左至右所示）：

1.首先，从编码器输入的句子会先经过一个自注意力层（即self-attention），它会帮助编码器在对每个单词编码时关注输入句子中的的其他单词

2.接下来，自注意力层的输出会传递到前馈(feed-forward)神经网络中，每个位置的单词对应的前馈神经网络的结构都完全一样（仅结构相同，但各自的参数不同）

3.最后，流入解码器中，解码器中除了也有自注意力层、前馈层外，这两个层之间还有一个编码-解码注意力层，用来关注输入句子的相关部分（和seq2seq模型的注意力作用相似）

1.2把编码器和编码器联合起来看待的话，则整个流程就是（如下图从下至上所示）：

1.最底下的编码器接收的是嵌入向量，之后的编码器接收的是前一个编码器的输出

2.输入序列中每个位置的单词都各自单独的路径流入编码器，即各个单词同时流入编码器中，不是排队进入.

3.在自注意力self-attention层中，这些路径两两之间是相互依赖的，而前馈层(feed-forward）则没有这些依赖性，所以这些路径在流经前馈层(feed-forward)时可以并行计算

1.1 自注意力机制计算

在Transformer中，自注意力机制则将对其他单词的“理解”融入到当前处理的单词中。当模型处理每个位置的词时，self-attention允许模型看到句子中其他位置有关联或相似的单词/信息作为辅助线索，以更好地编码当前单词。

重要程度便用所谓的权重表示(权重来自于该词/向量本身跟其他各个词/向量之间的相似度)，权重越大的单词代表与『该词』越相关(某种意义上可以认为是越相似)，从而对理解『该词』越重要，然后把该词编码为包括该词在内所有词的加权和

计算自注意力有两种方式：一种通过向量，一种通过矩阵。

1.3.1 计算自注意力第一步：生成查询向量、键向量和值向量

从每个编码器的输入向量(即每个单词的词向量)生成三个向量：查询向量query-vec、键向量key-vec、值向量value-vec ，这三个向量的生成方法是把输入的向量分别乘以三个不同的权重矩阵 $W^{Q}$ 、 $W^{K}$ 、 $W^{V}$ ，得到Q、K、V，而这些权重矩阵是在模型训练阶段中训练出来的「最后通过反向传播不断优化学习得出」。举例说明，在我们有了权重矩阵后，对于单词 $X_{1}$ 、 $X_{2}$ 分别而言

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/444012.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【JavaEE】——回显服务器的实现

【JavaEE】——回显服务器的实现

阿华代码，不是逆风，就是我疯你们的点赞收藏是我前进最大的动力！！ 希望本文内容能够帮助到你！！ 目录一：引入 1：基本概念二：UDP socket API使用 1：socke…

阅读更多...

2-118 基于matlab的六面体建模和掉落仿真

2-118 基于matlab的六面体建模和掉落仿真

基于matlab的六面体建模和掉落仿真，将对象建模为刚体来模拟将立方体扔到地面上。同时考虑地面摩擦力、刚度和阻尼所施加的力，在三个维度上跟踪平移运动和旋转运动。程序已调通，可直接运行。下载源程序请点链接：2-118 基于matla…

阅读更多...

基于SpringBoot“花开富贵”花园管理系统【附源码】

基于SpringBoot“花开富贵”花园管理系统【附源码】

效果如下： 系统注册页面系统首页界面植物信息详细页面后台登录界面管理员主界面植物分类管理界面植物信息管理界面园艺记录管理界面研究背景随着城市化进程的加快和人们生活质量的提升，越来越多的人开始追求与自然和谐共生的生活方式&#xf…

阅读更多...

使用激光跟踪仪提升码垛机器人精度

使用激光跟踪仪提升码垛机器人精度

标题1.背景码垛机器人是一种用于工业自动化的机器人，专门设计用来将物品按照一定的顺序和结构堆叠起来，通常用于仓库、物流中心和生产线上，它们可以自动执行重复的、高强度的搬运和堆垛任务。图1 码垛机器人传统调整码垛机器人的方法&a…

阅读更多...

通信工程学习：什么是DIP数据集成点

通信工程学习：什么是DIP数据集成点

DIP：数据集成点 DIP数据集成点（Data Integration Point），简称DIP，是物联网技术（IoT）和机器到机器（M2M）通信中的一个重要组成部分。DIP在数据集成和传输过程中扮演着关键角…

阅读更多...

【笔记】6.2 玻璃的成型

【笔记】6.2 玻璃的成型

玻璃熔体的成型方法,有压制法(例如,制作水杯、烟灰缸等)、压延法(例如,制作压花玻璃等)、浇铸法(例如,制作光学玻璃、熔铸耐火材料、铸石等) 、吹制法(例如,制作瓶罐等空心玻璃)、拉制法(例如,制作窗用玻璃、玻璃管、玻璃纤维等)、离心法(例如,制作玻璃棉等)、喷吹法(例如,制作…

阅读更多...

Ansible 工具从入门到使用

Ansible 工具从入门到使用

1. Ansible概述 Ansible是一个基于Python开发的配置管理和应用部署工具，现在也在自动化管理领域大放异彩。它融合了众多老牌运维工具的优点，Pubbet和Saltstack能实现的功能，Ansible基本上都可以实现。 Ansible能批量配置、部署、管理上千台主…

阅读更多...

各类排序详解

各类排序详解

前言本篇博客将为大家介绍各类排序算法，大家知道，在我们生活中，排序其实是一件很重要的事，我们在网上购物，需要根据不同的需求进行排序，异或是我们在高考完报志愿时，需要看看院校的排名&#…

阅读更多...

qt QGraphicsItem详解

qt QGraphicsItem详解

一、概述 QGraphicsItem是Qt框架中图形视图框架（Graphics View Framework）的一个核心组件，它是用于表示2D图形元素的基类。它支持的功能包括： 设置和获取图形项的位置和尺寸。控制图形项的外观，如颜色、笔刷、边框…

阅读更多...

京东web 京东e卡绑定第二部分分析

京东web 京东e卡绑定第二部分分析

声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！ 有相关问题请第一时间头像私信联系我删…

阅读更多...

请求参数中字符串的+变成了空格

请求参数中字符串的+变成了空格

前端请求后端接收到的结果在URL中，某些字符（包括空格、、&、? 等）需要被编码。具体而言，在URL中，空格通常被编码为或 %20。因此，如果你在请求参数中使用 ，它会被解释为一个空格。如果…

阅读更多...

2024重生之回溯数据结构与算法系列学习（12）【无论是王道考研人还是IKUN都能包会的；不然别给我家鸽鸽丟脸好嘛？】

2024重生之回溯数据结构与算法系列学习（12）【无论是王道考研人还是IKUN都能包会的；不然别给我家鸽鸽丟脸好嘛？】

欢迎各位彦祖与热巴畅游本人专栏与博客你的三连是我最大的动力以下图片仅代表专栏特色 [点击箭头指向的专栏名即可闪现] 专栏跑道一 ➡️ MYSQL REDIS Advance operation 专栏跑道二➡️ 24 Network Security -LJS 专栏跑道三 ➡️HCIP；H3C-SE;CCIP——…

阅读更多...

智能边缘计算 | 项目快速部署指南

智能边缘计算 | 项目快速部署指南

在数字化浪潮的推动下，边缘计算与人工智能的深度融合正在成为推动智能社会发展的新动力。边缘计算通过将数据处理和分析任务从中心服务器转移到更接近数据源的端侧，从而显著降低数据传输延迟，提高了响应速度和安全隐私性。在人工智能的加持…

阅读更多...

python的特殊方法——魔术方法

python的特殊方法——魔术方法

前言 __init__(self[]) 编辑 __call__(self [, ...]) __getitem__(self, key) __len__(self) __repr__(self) / __str__(self) __add__(self, other) __radd__(self, other) 参考文献前言官方定义好的，以两个下划线开头且以两个下划线结尾来命名的方法…

阅读更多...

在QT中将Widget提升为自定义的Widget后，无法设置Widget的背景颜色问题解决方法

在QT中将Widget提升为自定义的Widget后，无法设置Widget的背景颜色问题解决方法

一、问题在Qt中将QWidget组件提升为自定义的QWidget后，Widget设置的样式失效，例如设置背景颜色为白色失效。二、解决方法将已经提升的QWidget实例对象，脱离父窗体的样式，然后再重新设置自己的样式。

阅读更多...

[ComfyUI]太赞了！阿里妈妈发布升级版 Flux 图像修复模型，更强细节生成，更高融合度以及更大分辨率支持

[ComfyUI]太赞了！阿里妈妈发布升级版 Flux 图像修复模型，更强细节生成，更高融合度以及更大分辨率支持

小伙伴们还记得我们之前介绍的阿里妈妈发布的 Flux 的 ControlNet 图像修复模型不，之前发布的是 Alpha 早期测试版本，说实话和 Flux 原生的重绘其实差距不大，有些方面甚至还是原生的效果更好。但是现在，Alpha 的升级版本 Beta 版…

阅读更多...

Stable Diffusion绘画 | 签名、字体、Logo设计

Stable Diffusion绘画 | 签名、字体、Logo设计

第1步，使用 PS（小白推荐使用可画）准备一个 512*768 的签名、字体、Logo图片： 第2步，来到模型网站，搜索🔍关键词“电商”，找到一款喜欢的 LoRA： 第3步，选择一…

阅读更多...

4.STM32-中断

4.STM32-中断

STM32-中断需求：红灯每两秒进行闪烁，按键key1控制绿灯亮灭简单的程序代码无法满足要求如何让STM32既能执行HAL_DELAY这种耗时的任务，同时又能快速响应按键按下这种突发情况呢设置中断步骤 1.接入中断将KEY1输入模式由原先的GPIO_In…

阅读更多...

布隆过滤器基本原理与使用

布隆过滤器基本原理与使用

目录 1.引言 2.基本定义 3.基本原理 4.实现方法 5.布隆过滤器的优缺点 6.哈希冲突和误判问题 7.大规模数据集Redis中布隆过滤器的性能优化 8.应用场景举例 1.引言在互联网应用中，随着用户基数和交互数据的爆炸性增长，如何高效地处理点赞、签到、…

阅读更多...

vue出现Component name “Politic“ should always be multi-word错误

vue出现Component name “Politic“ should always be multi-word错误

效果原因组件名不能为单个单词，怕和html标签混淆解决方法 1.选择多个单词区分 2.修改package.json里的rules规则，忽略文件命名校验

阅读更多...

最新文章

推荐文章