Transformer ZOO

Natural Language Processing

Transformer:Attention is all you need URL(46589)2017.6

  • 提出Attention机制可以替代卷积框架。
  • 引入Position Encoding,用来为序列添加前后文关系。
  • 注意力机制中包含了全局信息
  • 自注意力机制在建模序列数据中的长期依赖关系方面表现出色,因为它能够在序列中的每个位置上计算所有其他位置的注意力权重,并且能够通过这些权重来捕获全局的语义信息。但其无法显式地建模序列中的局部结构。这意味着自注意力机制在处理某些序列数据时可能会出现一些问题,比如处理具有很强局部结构的序列时可能无法捕获这种结构的信息。
  • 详细见transformer
  • 【Transformer】10分钟学会Transformer | Pytorch代码讲解 | 代码可运行 - 知乎 (zhihu.com)
image-20230305172508153

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding URL(24662)2018.10

image-20230321165647106

Input/Output Representations

  • 采用WordPiece编码,又为了解决前后句子问题,BERT采用了两种方法去解决:

    • 在组合的一序列tokens中把**分割token([SEP])**插入到每个句子后,以分开不同的句子tokens。

    • 为每一个token表征都添加一个Segment Embedding来指示其属于句子A还是句子B。

  • 在每个序列队首位置添加一个**[CLS]标记,该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用(在之后的下游**任务中,对于句子级别的任务,就把C输入到额外的输出层中,对于token级别的任务,就把其他token对应的最后一个Transformer的输出输入到额外的输出层)

    image-20230321165921184

训练策略

  • Masked Language Model(MLM)改进了原始Transformer在预测时只能获取当前时刻前的信息,通过引入cloze(完形填空)的训练思路,让模型获得双向语言特征(部分语言问题本身需要通过获取双向信息才能达到更好的效果)。

  • Next Sentence Prediction(NSP),普通MLM任务只是倾向于对每个token层次的特征进行表征,但不能对相关token的句子层次特征进行表示,为了使得模型能理解句子间的关系,采用了NSP任务来进行训练。

    具体的做法是:对于每一个训练样例,我们在语料库中挑选出句子A和句子B来组成,50%的时候句子B就是句子A的下一句*(标注为IsNext),剩下50%的时候句子B是语料库中的随机句子(标注为NotNext)*。接下来把训练样例输入到BERT模型中,用**[CLS]对应的C信息**去进行二分类的预测。

Transformer-XL: Attentive Language Models beyond a Fixed-Length Context URL(1103)2019.1

  • Segment-Level Recurrence,对于每个被segment的序列,将前一个序列计算的隐状态序列进行缓存,并利用到当前状态下的前向计算中(可以缓存多个序列)

  • 提出相对位置编码:将序列每个位置信息表示为由位置偏移量和时间步数组成的向量,然后映射到固定的维度空间输入到注意力机制中

    image-20230321140028233

XLNet: Generalized Autoregressive Pretraining for Language URL (3062)2019.6

  • Permutation Language Modeling(随机置换语言模型),通过对序列进行permutation,让序列在以AR1模型进行输入的同时具备AE2模型能对上下文信息的优点,但此时位置编码需要修改,从而引入了Two-Stream Self-Attention。

    • 由于AR模型在处理序列时只能从左到右或从右到左,即使双向叠加效果也差于BERT,但是BERT的AE模型在推理过程又是看不到的,这导致性能丢失,从而通过PLM来平衡两个步骤。
  • Two-Stream Self-Attention,引入query stream和content stream,其中query stream是用来对随机置换的序列位置进行编码,以此具有位置关系信息。

    image-20230321135318606

Computer Vision

VIT:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale URL (976) 2020.10

image-20230321162924663
  • 采用将图片分为多个patch,再将每个patch投影为固定向量作为输入,为了更好的进行下游任务进行图像分类等操作,采用和[BERT](#Input/Output Representations)相似的操作,在输入序列最前面加一个**[CLS]**标记。从而,通过patch embedding将一个视觉问题转换为了一个seq2seq问题。

  • ViT(Vision Transformer)解析 - 知乎 (zhihu.com)

Pyramid Vision Transformer:A Versatile Backbone for Dense Prediction without Convs

[2102.12122] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions (arxiv.org)

2023-11-17_10-51-15

2023-11-19_16-48-20

  • 利用了progressive shrinking pyramid,可以输出多分辨率的feature map,方便进行更多下游任务,通过人为限制kv的尺寸大小限制计算量
  • 使用层级式架构,能输出不同stage后的特征图,方便进行下游任务。

Swin Transformer : Hierarchical Vision Transformer using Shifted Windows URL (351) 2021.3

image-20230321183426196

  • 下采样的层级设计,能够逐渐增大感受野,从而使得注意力机制也能够注意到全局的特征

  • 滑窗操作包括不重叠的 local window,和重叠的 cross-window。不重叠的local windows将注意力计算限制在一个窗口(window size固定),而cross-windows则让不同窗口之间信息可以进行关联,达到更好的效果。

  • 论文详解:Swin Transformer - 知乎 (zhihu.com)

Object Detection

DETR: End-to-End Object Detection with Transformers URL(108) 2020.5

  • 绕过proposals、anchors、window center的传统目标检测方法,直接使用transformer的全局注意力实现对目标的预测,避免了一些人为因素影响的先验框。
  • 小物体不太好,其运行在分辨率最低的feature map上
  • set-based loss(实现端到端),采用匈牙利匹配
  • decoder中出现了cross attention,输入包含了object query 以及encoder的输出
  • Object queries是一个可学习的向量(num, b,dim)Num是人为给的值,这个东西的作用和cls token类似,也是在整合信息,远大于图片内物体数量。
  • end2end 丢弃Transformer,FCN也可以实现E2E检测 - 知乎 (zhihu.com)
  • (6) DETR - End to end object detection with transformers (ECCV2020) - YouTube

image-20230321185015283

Deformable DETR: Deformable Transformers for End-to-End Object Detection URL(183)2020.10

  • 引入多尺度特征,解决了DETR在小物体上检测的问题。

Footnotes



  1. AutoRegressive language model ↩︎

  2. AutoEncoder language model ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/197565.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue项目本地开发完成后部署到服务器后报404

vue项目本地开发完成后部署到服务器后报404是什么原因呢? 一、如何部署 前后端分离开发模式下,前后端是独立布署的,前端只需要将最后的构建物上传至目标服务器的web容器指定的静态目录下即可 我们知道vue项目在构建后,是生成一系…

统信UOS通过源码安装软件提示“configure: error: cannot run C compiled programs.”错误

1. 问题说明 使用源码的方式安装git软件,安装过程中出现两个错误。 编译错误“cannot run C compiled programs” XC:~/Downloads/git-2.42.1$ ./configure --prefix/home/software/git-2.42.1 configure: Setting lib to lib (the default) configure: Will try…

计算机组成原理-双端口RAM和多模块存储器

文章目录 存取周期总览双端口RAM多体并行存储器低地址交叉编址有多少个存储体合适(体号)多模块存储器(多体存储器)总结实际场景 存取周期 总览 双端口RAM RAM:用于主存或高速缓存,断电数据丢失 多体并行…

C++ 运算符重载详解

本篇内容来源于对c课堂上学习内容的记录 通过定义函数实现任意数据类型的运算 假设我们定义了一个复数类&#xff0c;想要实现两个复数的相加肯定不能直接使用“”运算符&#xff0c;我们可以通过自定义一个函数来实现这个功能&#xff1a; #include <iostream> using…

宠物信息服务预约小程序的效果如何

宠物的作用越来越重要&#xff0c;因此铲屎官们对自己爱宠的照顾也是加倍提升&#xff0c;而市场围绕宠物展开的细分服务近些年来逐渐增多&#xff0c;且市场规模快速增长。涉及之广&#xff0c;涵盖宠物衣食住行、医疗、美容、婚丧嫁娶等&#xff0c;各品牌争相抢夺客户及抢占…

代码随想录算法训练营|五十六天

回文子串 647. 回文子串 - 力扣&#xff08;LeetCode&#xff09; dp含义&#xff1a;表示区间内[i,j]是否有回文子串&#xff0c;有true&#xff0c;没有false。 递推公式&#xff1a;当s[i]和s[j]不相等&#xff0c;false&#xff1b;相等时&#xff0c;情况一&#xff0c;…

中国电影票房排行数据爬取及分析可视化

大家好&#xff0c;我是带我去滑雪&#xff01; 对中国电影票房排行数据的爬取和分析可视化具有多方面的用处&#xff1a;例如了解电影市场的历史趋势&#xff0c;包括不同类型电影的受欢迎程度、票房的季节性波动。识别观众对于不同类型电影的偏好&#xff0c;为电影制片方提供…

高效背单词——单词APP安利

大英赛&#xff0c;CET四六级&#xff0c;以及考研英语&#xff0c;都在不远的未来再度来临&#xff0c;年复一年的考试不曾停息&#xff0c;想要取得好成绩&#xff0c;需要我们的重视并赋予相应的努力。对于应试英语&#xff0c;词汇量是不可忽略的硬性要求。相比于传统默写&…

快速集成Skywalking 9(Windows系统、JavaAgent、Logback)

目录 一、Skywalking简介二、下载Skywalking服务端三、安装Skywalking服务端3.1 解压安装包3.2 启动Skywalking 四、关于Skywalking服务端更多配置五、Java应用集成skywalking-agent.jar5.1 下载SkyWalking Java Agent5.2 集成JavaAgent5.3 Logback集成Skywalking5.4 集成效果 …

flutter web 中嵌入一个html

介绍 flutter web 支持使用 HtmlElementView嵌入html import dart:html; import dart:ui as ui; import package:flutter/cupertino.dart;class WebWidget extends StatelessWidget {const WebWidget({super.key});overrideWidget build(BuildContext context) {DivElement fr…

【diffuser系列】ControlNet

ControlNet: TL;DRControl TypeStableDiffusionControlNetPipeline1. Canny ControlNet1.1 模型与数据加载1.2 模型推理1.3 DreamBooth微调 2. Pose ControlNet2.1 数据和模型加载2.2 模型推理 ControlNet: TL;DR ControlNet 是在 Lvmin Zhang 和 Maneesh Agrawala 的 Adding …

麦克风阵列入门

文章引注&#xff1a; http://t.csdnimg.cn/QP7uC 一、麦克风阵列的定义 所谓麦克风阵列其实就是一个声音采集的系统&#xff0c;该系统使用多个麦克风采集来自于不同空间方向的声音。麦克风按照指定要求排列后&#xff0c;加上相应的算法&#xff08;排列算法&#xff09;就可…

漫谈广告机制设计 | 万剑归宗:聊聊广告机制设计与收入提升的秘密(2)

书接上文漫谈广告机制设计 | 万剑归宗&#xff1a;聊聊广告机制设计与收入提升的秘密&#xff08;1&#xff09;&#xff0c;我们谈到流量作为一种有限资源&#xff0c;其分配方式&#xff08;或者交易方式&#xff09;也经历了几个阶段&#xff1a;第一个是谈判定价阶段&#…

线性方程组

线性方程组 设存在线性方程组 { a 1 , 1 x 1 a 1 , 2 x 2 ⋯ a 1 , n x n b 1 a 2 , 1 x 1 a 2 , 2 x 2 ⋯ a 2 , n x n b 2 ⋮ ⋮ a m , 1 x 1 a m , 2 x 2 ⋯ a m , n x n b m \left.\left\{\begin{array}{l}a_{1,1}x_1a_{1,2}x_2\cdotsa_{1,n}x_nb_1\\a_{2,1}…

linux查看资源占用情况常用命令

1. 查看 CPU 使用情况&#xff1a; top这个命令会显示系统中当前活动进程的实时信息&#xff0c;包括 CPU 使用率、内存使用率等。按 q 键退出。 2. 查看内存使用情况&#xff1a; free -m这个命令显示系统内存的使用情况&#xff0c;以兆字节&#xff08;MB&#xff09;为…

【预处理详解】

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 1. 预定义符号 2. #define定义常量 3. #define定义宏 4. 带有副作用的宏参数 5. 宏替换的规则 6. 宏函数的对比 7. #和## 7.1 #运算符 7.2 ## 运算符 8. 命名约定 …

【Spring总结】注解开发

本篇讲的内容主要是基于Spring v2.5的注解来完成bean的定义 之前都是使用纯配置的方式来定义的bean 文章目录 前言1. Spring v2.5 注解开发定义bean第一步&#xff1a;在需要定义的类上写上注解Component第二步&#xff1a;在Spring Config中定义扫描包第三步&#xff1a;主方法…

企业数字化过程中数据仓库与商业智能的目标

当前环境下&#xff0c;各领域企业通过数字化相关的一切技术&#xff0c;以数据为基础、以用户为核心&#xff0c;创建一种新的&#xff0c;或对现有商业模式进行重塑就是数字化转型。这种数字化转型给企业带来的效果就像是一次重构&#xff0c;会对企业的业务流程、思维文化、…

为什么求职者反感企业招聘用的人才测评?

为什么求职者会对人才测评的不满&#xff1f;大概率是认为性格测评不能完整的定义人的优势&#xff0c;也就是测不准&#xff01; 这个想法是对的&#xff0c;性格测评并不能100%的展现一个完整的人&#xff0c;目前没有那个测评的信效度能达到如此理想&#xff0c;估计以后也…