51-17 视频理解串讲— MViT 论文精读

继TimeSformer模型之后,咱们再介绍两篇来自Facebook AI的论文,即Multiscale Vision Transformers以及改进版MViTv2: Improved Multiscale Vision Transformers for Classification and Detection。

本文由深圳季连科技有限公司AIgraphX自动驾驶大模型团队整理编辑。如有错误,欢迎在评论区指正。由于本司大模型组最近组织阅读的论文较多,为理清相互之间的脉络,画草图如下 <->

MViT,Multiscale Vision Transformers

MViT就是Transformer和多尺度分层建模相融合的产物。

Abstract

通过将多尺度、层次性特征的开创性思想与transformer模型联系起来,我们提出了用于视频和图像识别的多尺度视觉transformer,MViT。多尺度transformer有几个channel-resolution扩展过程。从输入分辨率和一个小的通道维度开始,每个stage分层地扩展通道容量,同时降低空间分辨率。这创建了一个多尺度的特征金字塔,其中早期的层以高空间分辨率运行,以模拟简单的低层次视觉信息,而更深的层则有空间粗糙但复杂的高维特征。我们评估了先前基础架构,它们为密集性质的视觉信号建模,用于各种视频识别任务。在这些任务中,并发vision-transformer依赖大规模外部预训练,并且在计算和参数方面成本高出MViT 5-10倍。我们进一步消除了时间维度,并将我们的模型应用于图像分类,它优于先前在视觉transformer上的工作。代码可在:https: //github.com/facebookresearch/SlowFast获得。

Introduction

我们从计算机视觉神经网络模型的智力历史开始。基于对猫和猴子视觉皮层的研究,Hubel和 Wiesel开发了一种视觉通路的分层模型,其神经元位于较低区域,例如 V1 响应定向边缘和条形等特征,而在较高区域响应更具体的刺激。Fukushima提出了Neocogniztron,这是一种由Hubel和 Wiesel层次结构明确驱动的模式识别神经网络架构。他的模型具有交替的简单细胞和复杂细胞层,从而结合了下采样和平移不变性,从而结合了卷积结构。LeCun等人采取了使用反向传播来训练该网络权重的额外步骤。通过这些核心工作,层次结构的视觉处理主要方面已经建立起来:(i)随着处理层次的上升,空间分辨率降低(ii)增加不同“通道”的数量,每个通道对应着越来越专一的功能。

同时,计算机视觉社区开发了多尺度处理,有时被称为“金字塔”策略。有两个动机:(i)采用较低分辨率,减少计算需求;(ii)在较低分辨率下更好地感知“上下文”,然后可以指导在较高分辨率下的工作。

Transformer架构允许学习在集合上定义的任意函数,并且在语言理解和机器翻译等序列任务中获得了可扩展的成功。基本上,Transformer使用具有两个基本操作的块。首先是对元素间关系建模的attention操作。其次是多层感知器multi-layer perceptron,MLP,它对元素内部的关系进行建模。将这些操作与归一化、残差连接交织在一起,可以使Transformer推广到各种各样的任务。

最近,Transformer被应用于关键的计算机视觉任务,如图像分类。在架构普遍主义的精神下,vision Transformer在各种数据和计算机制下接近卷积模型的性能。vision Transformer的第一层以2D卷积的方式对输入进行“拼接”,然后是一堆Transformer块,目的是在归纳偏置很小的情况下展示Transformer架构的强大功能。

在本文中,我们的目的是将多尺度、层次结构的基本思想与Transformer模型联系起来。我们假设分辨率和通道缩放的基本视觉原理有利于Transformer模型在各种视觉识别任务中。我们提出了多尺度vision transformer models(MViT),这是一种用于建模视觉数据(如图像和视频)的Transformer架构。考虑一个输入图像,如图1所示。与传统的Transformer在整个网络中保持恒定的信道容量和分辨率不同,多尺度Transformer有几个channel-resolution “scale”阶段。从图像分辨率和小通道维度开始,每个stage在降低空间分辨率的同时分层扩展通道容量。这在Transformer网络内部创建了一个多尺度的特征激活金字塔,有效地将Transformer的原理与多尺度、层次结构连接起来。

(参照ViT,模型基于纯Transformer架构,所以采用了Patch操作。图中的1,2,3,4是patch的大小,随着模型深入,patch是变大的,但是空间分辨(Patch分辨率)是降低的。)

由于前面网络层信道容量小,模型可以在高空间分辨率下运行,以模拟简单的低级视觉信息。反过来,更深的网络层可以有效地专注于空间粗略但有复杂的高级特征,以对视觉语义进行建模。MViT基本优势来自于视觉信号的极其密集的性质,这种现象在视频中捕获的时空视觉信号更加明显。同时,这种video multiscale models存在强烈的隐式时间偏差。

Related Work

Convolutional networks (ConvNets)

ConvNets融合了下采样、移位不变性和共享权重,是图像和视频计算机视觉任务的事实上的标准骨干。

Self-attention in ConvNets

自注意机制已被用于图像理解、无监督对象识别以及视觉和语言。自注意运算和卷积网络的混合也被应用于图像理解和视频识别。

Vision Transformers

目前,人们对将变换器应用于视觉任务的热情大多始于vision transformer(ViT)和detection transformer。我们直接建立在允许通道扩展和分辨率下采样的分阶段模型的基础上。DeiT提出了一种数据高效的方法来训练ViT。我们的训练配方建立在相同设置下的DeiT之上,并将我们的图像分类模型与之进行比较。

Efficient Transformers

最近的工作降低了二次注意力的复杂性,使转换器在自然语言处理应用程序中更高效,这是对我们方法的补充。还有几项并行工作提出了一种基于ViT的视频架构。然而,这些方法依赖于对大量外部数据(如ImageNet21K)进行预训练,因此使用了适应性最小的普通ViT。相比之下,我们的MViT为transformer引入了多尺度、层次特征,允许在没有大规模外部数据的情况下对密集的视觉输入进行有效建模。

Multiscale Vision Transformer,MViT

通用多尺度Transformer架构建立在stage的核心概念之上。每个stage由多个具有特定时空分辨率和通道维度的Transformer block组成。多尺度Transformer的主要思想是逐步扩展信道容量,同时从输入到输出网络池化分辨率。

Multi Head Pooling Attention

我们首先描述了Multi Head Pooling Attention(MHPA),这是一种自注意算子,它能够在transformer块中进行灵活的分辨率建模,允许多尺度transformer以逐渐变化的时空分辨率进行操作。与原始的多头注意(MHA)算子不同,其中通道维度和时空分辨率保持固定,MHPA池化潜在张量序列,以减少参与输入的序列长度(分辨率)。

Multiscale Transformer Networks

MViT是仅使用 MHPA 和 MLP 层进行视觉表示学习的多尺度Transformer模型。

Preliminaries: Vision Transformer (ViT)

Vision Transformer (ViT) 架构首先对分辨率为 T ×H×W 的输入视频进行切割,其中 T 是帧的数量 ,H代表高度和W代表宽度,每个大小为 1×16×16 的非重叠块,然后在展平的图像块上进行线性层逐点应用,将它们投影到transformer的潜在维度 D 中。这相当于核大小为1×16×16的卷积,如表1中模型定义中的patch1阶段。

接下来,将位置嵌入E∈R添加到具有维度D、长度为L的投影序列的每个元素,以编码位置信息并打破排列不变性。将可学习类嵌入附加到投影的图像patch。

然后将得到的长度为 L + 1 的序列由 N 个transformer块的堆栈顺序处理,每个块执行注意力 MHA、多层感知器MLP和层归一化LN操作。将X视为块的输入,单个transformer块的输出Block(X) 由下式计算

N个连续块之后的结果序列被层归一化,类嵌入class embedding被提取并通过线性层来预测所需的输出(例如类)。默认情况下,MLP 的隐藏维度为 4D。

值得注意的是,ViT在所有块中保持恒定的信道容量和空间分辨率。

Multiscale Vision Transformers (MViT)

我们的关键概念是逐步增长通道分辨率(即维度),同时降低整个网络的时空分辨率(即序列长度)。通过设计,我们的 MViT 架构在早期层中具有精细的时空(和粗通道)分辨率,在后期层中上采样/下采样到粗时空(和细通道)分辨率。

Scale stages

一个scale stage被定义为一组N个transformer块,它们在同一尺度上操作,在通道和空间时间维度D×T ×H×W上具有相同的分辨率。在输入(表 2 中的 cube1),我们将patch(或立方体,如果它们具有时间范围)投影到更小的通道维度(例如,比典型的 ViT 模型小 8 倍),但更长序列(例如 4×4 = 16 倍比典型的 ViT 模型密集;参见表 1)。

在stage转换(例如 scale1 到 scale2 ,表 2)中,对处理后的序列的通道维度进行上采样,同时对序列的长度进行下采样。这有效地降低了底层视觉数据的时空分辨率,同时允许网络在更复杂的特征中吸收处理后的信息。

Channel expansion

当从一个stage过渡到下一个stage时,我们通过将前一阶段最终 MLP 层的输出增加一个相对于阶段引入的分辨率变化的因素来扩展通道维度。具体来说,如果我们将时空分辨率下采样 4 倍,我们将通道维度增加 2 倍。

提高通道数就是通过简单的全连接层对向量维度D进行映射。

Query pooling

池化操作不仅提供了K和V向量的长度的灵活性,而且也提供了Q的长度的灵活性,从而输出序列。以内核s池化q向量 P(Q; k; p; s)  ,会导致序列变短。我们的目的是在stage开始时降低分辨率,然后在每个stage保持这种分辨率,只有每个stage的第一个池化注意力算子在非退化查询步幅 sQ > 1 下运行,所有其他算子都被限制为 sQ≡(1,1,1)。

PS:降低空间分辨率=降低序列长度=降低Q向量长度。

Key-Value pooling

与q pooling不同,改变K和V张量的序列长度不会改变输出序列长度、时空分辨率。然而,它们在池化注意算子的整体计算需求中起着关键作用。

我们将 K、V 和 Q 池化解耦,在每个阶段的第一层使用 Q 池化,并在所有其他层中使用 K、V 池化。由于K和V张量的序列长度需要与允许注意力权重计算相同,因此 K 和 V 张量上使用的池化步幅需要相同。在我们的默认设置中,我们将所有池化参数 (k; p; s) 约束为相同的,即stage内的 ΘK ≡ ΘV,但跨stage自适应地将 w.r.t 更改为尺度。

Skip connections

由于残差块内的通道维度和序列长度变化,我们跳跃连接以适应其两端之间的维度不匹配。MHPA 通过将查询池运算符 P(·; ΘQ) 添加到残差路径中来处理这种不匹配。如下图,我们不是直接将 MHPA 的输入 X 添加到输出中,而是将池化的输入 X 添加到输出中,从而将分辨率与参与查询 Q 匹配。为了处理阶段变化之间的通道维度不匹配,我们采用了一个额外的线性层,它对MHPA操作的层归一化输出进行操作。请注意,这与在非归一化信号上运行的其他(保留分辨率)跳跃连接不同。

(这一步,必须保证L k = L v,即图中THW ,所以要降低空间分辨率,需要改变Q向量的序列长度。我们知道要改变序列长度,一个很好的办法是pooling操作。现在对Q进行pooling操作,同时实验证明K,V向量pooling会提高相应指标,所以对K,V向量也进行了pooling操作,但是不会影响空间分辨率的大小。为了保证残差connection成立,需要对输入X同样进行和Q向量一样的pooling操作。)

同样证明,降低空间分辨率=降低序列长度=降低Q向量长度。

Experiments

请查看原文。MViT主要是用来处理视频序列,作者做了大量的实验来处理视频任务,同时也在图片任务上进行了测试,都取得了不错的结果。另外,该论文消融实验还是做的蛮多的,建议多读读,也许可以学到一些东西。

ViT-B/ MViT-B/ MViT-S

ViT-B框架,即原版ViT中没有分层结构,输出和输入形状是一样。MViT采用MHPA,引入了分层结构,提出了两个不同大小的模型MViT-B/ MViT-S。值得注意的是,两个模型的体量都比较小,不到7G的显存就可以运行MViT-B。

同其他模型相比,可以看到MViT性能还是比较优秀。

Conclusion

我们提出了MViT,旨在将多尺度、层次结构的基本概念与transformer模型连接起来。MViT 在降低视觉分辨率的同时分层扩展了特征复杂性。在实证评估中,MViT 在视频和图像识别方面都比单尺度模型显示出有根本的优势。

本文由深圳季连科技有限公司AIgraphX自动驾驶大模型团队整理编辑。如有错误,欢迎在评论区指正,原文链接如下:

Multiscale Vision Transformers https://arxiv.org/abs/2104.11227.

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection,

https://arxiv.org/abs/2112.01526.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/249534.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux ---- Shell编程之函数与数组

目录 一、函数 1、函数的基本格式 2、查看函数列表 3、删除函数 4、函数的传参数 5、函数返回值 实验&#xff1a; 1.判断输入的ip地址正确与否 2. 判断是否为管理员用户登录 6、函数变量的作用范围 7、函数递归&#xff08;重要、难点&#xff09; 实验&#xff1…

力扣hot100 数据流的中位数 大小根堆

Problem: 295. 数据流的中位数 文章目录 思路复杂度&#x1f496; Code 思路 &#x1f468;‍&#x1f3eb; 参考 大根堆维护较小值&#xff08;堆顶即中位数&#xff09;&#xff0c;小根堆维护较大值&#xff08;堆顶可能是中位数之一&#xff09;维护小堆长度较长&#x…

第九节HarmonyOS 常用基础组件21-ImageAnimator

1、描述 提供帧动画组件来实现逐帧播放图片的能力&#xff0c;可以配置需要播放的图片列表&#xff0c;每张图片可以配置时长。 2、接口 ImageAnimator() 3、属性 参数名 参数类型 描述 images Array<ImageFrameInfo> 设置图片帧信息集合&#xff0c;每一帧的帧…

启动盘重装ubuntu22系统

win+R msinfo32查看 插入制作好的u盘电脑开机 进入BIOS界面的方法有多种,以下是一些常见的方法: 进入BIOS界面的最常见按键有: Del键:大多数台式机通过在启动时按下Del键来进入BIOS。Esc键:在AMI BIOS和某些品牌电脑中,进入BIOS系统需要按“Esc”键,一般在开机画面…

消息中间件之RocketMQ源码分析(四)

消费者的Rebalance机制 客户端是通过Rebalance服务做到高可靠的。当发生Broker掉线、消费者实例掉线、 Topic扩容等各种突发情况时&#xff0c;消费者组中的消费者实例是怎么重平衡的&#xff0c;以支持全部队列的正常消费的? Rebalance服务的类图 RebalanceImpl的核心属性 …

Springboot项目基础配置:小白也能快速上手!

推荐文章 给软件行业带来了春天——揭秘Spring究竟是何方神圣&#xff08;一&#xff09; 给软件行业带来了春天——揭秘Spring究竟是何方神圣&#xff08;二&#xff09; 给软件行业带来了春天——揭秘Spring究竟是何方神圣&#xff08;三&#xff09; 给软件行业带来了春天—…

Windows IIS服务如何配置并制作web站点结合内网穿透实现公网访问

文章目录 1. 安装IIS必要WebDav组件2. 客户端测试3. cpolar内网穿透3.1 打开Web-UI管理界面3.2 创建隧道3.3 查看在线隧道列表3.4 浏览器访问测试 4. 安装Raidrive客户端4.1 连接WebDav服务器4.2 连接成功4.2 连接成功总结&#xff1a; 自己用Windows Server搭建了家用NAS主机&…

【思科】 GRE VPN 的实验配置

【思科】GRE VPN 的实验配置 前言报文格式 实验需求配置拓扑GRE配置步骤R1基础配置GRE 配置 ISP_R2基础配置 R3基础配置GRE 配置 PCPC1PC2 抓包检查OSPF建立GRE隧道建立 配置文档 前言 VPN &#xff1a;&#xff08;Virtual Private Network&#xff09;&#xff0c;即“虚拟专…

系统架构17 - 软件工程(5)

软件工程 软件测试测试原则测试方法静态测试动态测试黑盒测试白盒测试灰盒测试自动化测试 测试阶段单元测试集成测试系统测试性能测试验收测试其它测试AB测试Web测试链接测试表单测试 测试用例设计黑盒测试用例白盒测试用例 调试 系统维护遗留系统系统转换转换方式数据转换与迁…

虹科干货 | 如何使用nProbe Cento构建100 Gbit NetFlow 传感器

本文是一份全面的指南&#xff0c;解释了如何使用nProbe Cento构建一个高效的100 Gbit NetFlow传感器。旨在帮助大家充分利用NetFlow技术&#xff0c;以监控和分析高速网络流量。 当需要监控分布式网络&#xff0c;了解流经上行链路或关键网段的网络流量时&#xff0c;NetFlow…

个人建站前端篇(一)项目准备初始化以及远程仓库连接

云风的知识库 云风网前端重构&#xff0c;采用vue3.0vite antd框架&#xff0c;实现前后端分离&#xff0c;实现网站的SEO优化&#xff0c;实现网站的性能优化 vite创建vue项目以及前期准备 Vite 需要 Node.js 版本 18&#xff0c;20。然而&#xff0c;有些模板需要依赖更高…

Arduino Uno R3通过ESP-01S连接网络

一、材料准备 Arduino Uno R3开发板 1 USB串口通信数据线&#xff08;Uno开发板使用&#xff09; 1 ESP8266-01S Wi-Fi模块 1 ESP8266固件烧录下载器&#xff08;烧录固件使用&#xff09; 1 WiFi无线收发转接板&#xff08;适用于ESP-01S、ESP-01&#xff09; 杜邦线…

京津冀科技盛会:2024北京国际智能科技产业展会(世亚智博会)

随着中国经济的快速发展&#xff0c;我们已逐渐从高速增长阶段转向高质量发展阶段。这一转变不仅是经济发展的必然趋势&#xff0c;也是全面建设社会主义现代化国家的首要任务。在这个过程中&#xff0c;数字经济以其高创新性、强渗透性和广覆盖性的特点&#xff0c;成为了构建…

《Docker技术革命:从虚拟机到容器化,全面解析Docker的原理与应用-上篇》

文章目录 Docker为什么会出现总结 Docker的思想Docker历史总结 Docker能干嘛虚拟机技术虚拟机技术的缺点 容器化技术Docker和虚拟机技术的区别 Docker概念Docker的基本组成镜像&#xff08;image)容器&#xff08;container&#xff09;仓科&#xff08;repository&#xff09;…

怎样做好Code Review

Code Review方案 定义 Code Review代码评审是指在软件开发过程中&#xff0c;通过对源代码进行系统性检查的过程。通常的目的是查找各种缺陷&#xff0c;包括代码缺陷、功能实现问题、编码合理性、性能优化等&#xff1b;保证软件总体质量和提高开发者自身水平 code review …

AI绘画探索人工智能的未来

&#x1f308;个人主页: Aileen_0v0 &#x1f525;热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​&#x1f4ab;个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-8fL64RHWVzwpzR6m {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…

C++引用、内联函数、auto关键字介绍以及C++中无法使用NULL的原因

文章目录 一、引用1.1 引用概念1.2 引用特性1.3 常引用1.4 使用场景1.4.1 做参数1.4.2做返回值 1.5 引用和指针的区别1.6 小结一下 二、内联函数2.1 内联的概念2.2 内联的特性2.3 【面试题】 三、auto关键字(C11)3.1 类型别名思考3.2 auto简介 四、auto的使用细则4.1 基于范围的…

海外短剧系统国际短剧源码h5多语言版app挂载tiktok油管ins

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目 前言 一、海外短剧系统是什么&#xff1f; 二、海外短剧系统功能与运营方式介绍 1.系统功能 2.短剧APP运营方式 总结 前言 本文简单介绍海外短剧系统的功能&#xff…

leetcode hot100跳跃游戏Ⅱ

本题和上一题还是有不一样的地方&#xff0c;这个题中&#xff0c;我们需要记录我们跳跃的步数并尽可能的满足最小的跳跃步数到达终点。 那么我们还是采用覆盖范围的概念&#xff0c;但是我们需要两个&#xff0c;一个是在当前位置的覆盖范围&#xff0c;另一个是下一步的覆盖…

SpringCloud Gateway(4.1.0) 返回503:原因分析与解决方案

文章目录 一、环境版本二、原因分析三、解决方案 一、环境版本 Versionspring-cloud-dependencies2023.0.0spring-cloud-starter-gateway4.1.0Nacosv2.3.0 二、原因分析 在 Spring Cloud Gateway 的早期版本中&#xff0c;Ribbon 被用作默认的负载均衡器。随着Spring Cloud的…