Transformer的前世今生 day09（Transformer的框架概述）

Transformer的前世今生 day09（Transformer的框架概述）

news/2025/1/9 15:49:29/文章来源:https://blog.csdn.net/u011453680/article/details/137059856

前情提要

编码器-解码器结构

如果将一个模型分为两块：编码器和解码器
那么编码器-解码器结构为：编码器负责处理输入，解码器负责生成输出
流程：我们先将输入送入编码器层，得到一个中间状态state，并送入解码器层，和额外的输入一同处理后，得到模型的输出
CNN就可以重新表示为下图
RNN也可以表示为下图：

Seq2seq

序列到序列的模型：从一个句子生成到另一个句子
模型分为编码器、解码器两部分，其中，编码器可以是一个RNN，用来读取输入句子，解码器使用另外一个RNN来输出生成的句子
注意：由于在输入时，我们知道全部的输入句子，所以可以用两个RNN做双向，但是解码器是生成模型，不能看到完整的句子，所以不能做双向
注意：在编码器层，通过开始<bos>、结束<eos>来控制编码器的输出
编码器层的输出是不会作为模型的输出，相反它最后一层的输出作为编码器层输入的一部分，和编码器层额外的输入合并，整体作为编码器层的输入，即编码器层的最后隐藏状态，作为解码器的初始隐藏状态，如下：

Transformer的框架概述

NLP中预训练的目的：为了生成词向量
Transformer采用了seq2seq（序列到序列）的模型，整体框架如下：
- seq2seq的模型基本都分为编码器层和解码器层，即从编码器到解码器的结构

使用机器翻译的场景来解释

在机器翻译的场景中：
- 编码器层：把输入变成一个词向量
- 解码器层：得到编码器层输出的词向量后，生成翻译的结果
同时，N * 的意思是：编码器层里面又有N个小编码器（默认N=6），一个编码器可以看作Self-Attention，而Self-Attention会对词向量做增强，经过6个编码器，那就是增强了6次
编码器层最后的输出会分别给6个解码器
因此，Transformer的关键就在于编码器和解码器，如下：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/288203.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

时序预测 | Matlab实现BiTCN-BiLSTM双向时间卷积神经网络结合双向长短期记忆神经网络时间序列预测

时序预测 | Matlab实现BiTCN-BiLSTM双向时间卷积神经网络结合双向长短期记忆神经网络时间序列预测

时序预测 | Matlab实现BiTCN-BiLSTM双向时间卷积神经网络结合双向长短期记忆神经网络时间序列预测目录时序预测 | Matlab实现BiTCN-BiLSTM双向时间卷积神经网络结合双向长短期记忆神经网络时间序列预测预测效果基本介绍程序设计参考资料预测效果基本介绍 1.Matlab实现BiTCN…

阅读更多...

AI智能分析网关V4如何使用GB28181注册到EasyCVR平台？具体步骤是什么？

AI智能分析网关V4如何使用GB28181注册到EasyCVR平台？具体步骤是什么？

旭帆科技的智能分析网关V4内含近40种智能分析算法，包括人体、车辆、消防、环境卫生、异常检测等等，在消防安全、生产安全、行为检测等场景应用十分广泛。如常见的智慧工地、智慧校园、智慧景区、智慧城管等等，还支持抓拍、记录、告警、语音对…

阅读更多...

rabbitmq集群问题排查

rabbitmq集群问题排查

blowcode-test-redis04、blowcode-test-redis05、blowcode-test-redis06 这3个节点搭建的rabbitmq集群，04是主节点。某次分别观察3个节点的管理页面，先都只能看到自己的节点是正常的绿色状态，猜测节点都各自为政了。下图是05节点成功加入0…

阅读更多...

MySQL 高级语句（二）

MySQL 高级语句（二）

一、子查询 1.1 相同表子查询 1.2 不同表/多表子查询 1.3 子查询的应用 1.3.1 语法 1.3.2 insert 子查询 1.3.3 update 子查询 1.3.4 delete 子查询 1.4 exists 关键字 1.4.1 true 1.4.2 false 1.5 as别名二、视图 2.1 视图和表的区别和联系 2.1.1 区别 2.1.2 …

阅读更多...

策略路由-IP-Link-路由协议简介

策略路由-IP-Link-路由协议简介

策略路由策略路由和路由策略的不同 1.策略路由的操作对象是数据包，在路由表已经产生的情况下，不按照路由表进行转发，而是根据需要，依照某种策略改变数据包的转发路径 2.路由策略的操作对象是路由信息。路由策略的主要实现了路…

阅读更多...

【前端】Layui的表格常用功能，表单提交事件，表格下拉按钮点击事件，表格外的按钮点击事件

【前端】Layui的表格常用功能，表单提交事件，表格下拉按钮点击事件，表格外的按钮点击事件

欢迎来到《小5讲堂》大家好，我是全栈小5。这是《前端》系列文章，每篇文章将以博主理解的角度展开讲解， 特别是针对知识点的概念进行叙说，大部分文章将会对这些概念进行实际例子验证，以此达到加深对知识点的理解和掌握…

阅读更多...

代码随想录算法训练营第三十六天 | 35. 无重叠区间、763. 划分字母区间、56. 合并区间

代码随想录算法训练营第三十六天 | 35. 无重叠区间、763. 划分字母区间、56. 合并区间

代码随想录算法训练营第三十六天 | 35. 无重叠区间、763. 划分字母区间、56. 合并区间 35. 无重叠区间题目解法 763. 划分字母区间题目解法 56. 合并区间题目解法感悟 35. 无重叠区间题目解法更新区间，只保留最小区间，局部最优，推到最优…

阅读更多...

Spring Cloud - Openfeign 实现原理分析

Spring Cloud - Openfeign 实现原理分析

OpenFeign简介 OpenFeign 是一个声明式 RESTful 网络请求客户端。OpenFeign 会根据带有注解的函数信息构建出网络请求的模板，在发送网络请求之前，OpenFeign 会将函数的参数值设置到这些请求模板中。虽然 OpenFeign 只能支持基于文本的网络请求，但是它可以极大简化网络请求的…

阅读更多...

Kali开启远程服务

Kali开启远程服务

一，先切换root账户二、kali开启远程服务 1，修改远程登录的配置文件 vim /etc/ssh/sshd_config （用文本编辑器打开此文件) 在文件的普通模式下，使用/PermitRootLogin，回车，查找到该行，i&#…

阅读更多...

【Java程序设计】【C00387】基于（JavaWeb）Springboot的校园食堂订餐系统（有论文）

【Java程序设计】【C00387】基于（JavaWeb）Springboot的校园食堂订餐系统（有论文）

基于（JavaWeb）Springboot的校园食堂订餐系统（有论文） 项目简介项目获取开发环境项目技术运行截图博主介绍：java高级开发，从事互联网行业六年，已经做了六年的毕业设计程序开发，开发过…

阅读更多...

OpenLayers6实战，OpenLayers绘制五角星，OpenLayers绘制特殊图形，地图上画五角星

OpenLayers6实战，OpenLayers绘制五角星，OpenLayers绘制特殊图形，地图上画五角星

专栏目录： OpenLayers实战进阶专栏目录前言本章讲解如何使用OpenLayers6在地图上绘制五角星这种特殊图形的功能。本章上一章基础上修改而成：OpenLayers6实战，OpenLayers绘制特殊图形，OpenLayers绘制四角形（菱形），OpenLayers绘制菱形二、依赖和使用 "ol&q…

阅读更多...

【Linux】详细分析/dev/loop的基本知识 | 空间满了的解决方法

【Linux】详细分析/dev/loop的基本知识 | 空间满了的解决方法

目录前言1. 基本知识2. 内存满了2.1 清空2.2 扩增 3. 彩蛋前言服务器一直down机，翻找日志文件一直找不到缘由，最终发现是挂载的内存满了，那本身这个文件就什么用呢？ 1. 基本知识 /dev/loop是一种特殊的设备文件，…

阅读更多...

【问题处理】蓝鲸监控-数据断点解决

【问题处理】蓝鲸监控-数据断点解决

本文来自腾讯蓝鲸智云社区用户：fadewalk 在问答社区看到有小伙伴在落地蓝鲸的过程中出现监控平台的grafana面板数据断点问题，往往出现这种问题，都比较的头疼。如果将CMDB（配置管理数据库）比作运维的基石，…

阅读更多...

构建以太网交换网络——（生成树实验）

构建以太网交换网络——（生成树实验）

实验介绍关于本实验以太网交换网络中为了进行链路备份，提高网络可靠性，通常会使用冗余链路。但是使用冗余链路会在交换网络上产生环路，引发广播风暴以及MAC地址表不稳定等故障现象，从而导致用户通信质量较差，甚至…

阅读更多...

用vscode调试cpp程序相关操作记录

用vscode调试cpp程序相关操作记录

需要在服务器上用vscode调试cpp程序，写此记录launch.json配置和相关步骤错误导致的问题 1.在需要运行程序的服务器上安装C/C Extension Pack（之前只在本地装了），可以支持调试C/C应用程序(设置断点，单步执行&#xff0c…

阅读更多...

【javaWeb 第三篇】Vue快速入门

【javaWeb 第三篇】Vue快速入门

VUE vue是一套前端框架，免除原生的js的DOM操作，简化书写基于MVVM（model-view-viewmodel）思想，实现数据的双向绑定，将编程的关注放在数据上。什么是框架： 框架相当于一个半成品，是一…

阅读更多...

修复PSINS一个不常用的函数（getgnssvp）的小bug

修复PSINS一个不常用的函数（getgnssvp）的小bug

PSINS工具箱的函数： vp getgnssvp(ephs, obss, tp, isfig)如上图，最后是绘图的标记“isfig”，但是实际这个标记没有用到，原函数内容： function vp getgnssvp(ephs, obss, tp, isfig) % see also findgpsobs. glob…

阅读更多...

宜搭低代码高级认证实操题2 faas连接器加密解密

宜搭低代码高级认证实操题2 faas连接器加密解密

密钥维护页-保证有一条数据敏感信息提交页存档页，只是用来存数据的审批的时候不用这个表提交数据不然会出两条授权查看页 FaaS连接器先下载好他的示例代码然后按照要求配置好参数直接拷贝进去就行然后需要在云开发环境里面先new一个terminal然后跑一下./builde…

阅读更多...

上位机图像处理和嵌入式模块部署（qmacvisual图像拼接）

上位机图像处理和嵌入式模块部署（qmacvisual图像拼接）

【声明：版权所有，欢迎转载，请勿用于商业用途。联系信箱：feixiaoxing 163.com】 qmacvisual本身提供了图像拼接的功能。功能本身比较有意思的。大家如果拍过毕业照，特别是那种几百人、上千人的合照，应该就…

阅读更多...

C++取经之路(其一)——namespace(命名空间),cout,cin(输入输出流)，缺省参数。

C++取经之路(其一)——namespace(命名空间),cout,cin(输入输出流)，缺省参数。

前言： 最近开始学习C了，所以新开一个板块来记录，因为知道革命一路上荆棘丛生，所以取名为取经之路。 namespace(命名空间): 首先我们要知道::是域作用符号默认访问全局变量。所谓命名空间，我称之为保护自己的财产&am…

阅读更多...

最新文章

推荐文章