论文阅读:VideoMamba: State Space Model for Efficient Video Understanding

论文地址:arxiv

摘要

为了解决视频理解中的局部冗余与全局依赖性的双重挑战。作者将 Mamba 模型应用于视频领域。所提出的 VideoMamba 克服了现有的 3D 卷积神经网络与视频 Transformer 的局限性。

经过广泛的评估提示了 VideoMamba 的能力:

  • 在视觉领域有可扩展性,无需大规模数据集来预训练。
  • 对于短期动作也有敏感性,即使是细微的动作差异也可以识别到
  • 在长期视频理解方面有优越性,相比基于特征的模式,有显著的进步。
  • 与其他的模态有兼容性,在多模态环境中表现出色。

正文

视频理解的核心在于掌握时空表征,这有两个问题:

  • 短视频片段中的大量时空冗余
  • 长语境中复杂的时空依赖关系

然而,CNNs 与 Transformer 的模型无法同时解决这两个问题。

由于 Mamba 存在选择性状态空间模型(SSM),使其在保持线性复杂度与促进长期动态建模之间取得了平衡。所以作者引入了 VideoMamba。它以原始 ViT 的风格和谐的融合了卷积和注意力的优势。提出了一种线性复杂度的方法来进行动态时空上下文建模,非常适合高分辨率长视频。

预备知识

状态空间模型(SSM)

状态空间模型基于连续系统构建,用于映射一维函数或序列,形式为
x ( t ) ∈ R L → y ( t ) ∈ R L x(t) \in \mathbb{R}^L \rightarrow y(t) \in \mathbb{R}^L x(t)RLy(t)RL
通过隐藏的状态 h ( t ) ∈ R N h(t) \in R^N h(t)RN。形式上,SSM 使用以下常微分方程来建模输入数据:

h ′ ( t ) = A h ( t ) + B x ( t ) , y ( t ) = C h ( t ) , \begin{align*} h'(t) &= {\mathbf A}h(t) + {\mathbf B}x(t), \\ y(t) &= {\mathbf C}h(t), \end{align*} h(t)y(t)=Ah(t)+Bx(t),=Ch(t),

其中, A ∈ R N ∗ N A \in R^{N*N} ARNN 表示系统的演化矩阵, B ∈ R B ∗ 1 B \in R^{B*1} BRB1 C ∈ R N ∗ 1 C \in R^{N*1} CRN1 是投影矩阵。这个连续的 ODE 通过离散化在现代 SSm 中进行近似。Mamba 是连续系统的离散版本之一,它包括一个时间尺度参数 Δ \Delta Δ,用于将连续参数 A , B A,B A,B 转换为离散对应物 A , B A,B A,B。这种转换通常采用零阶保持(ZOH)的方法,定义为:
A ‾ = exp ⁡ ( Δ A ) , B ‾ = ( Δ A ) − 1 ( exp ⁡ ( Δ A ) − I ) ⋅ Δ B , h t = A ‾ h t − 1 + B ‾ x t , y t = C h t . \begin{align*} \overline{{\mathbf A}} &= \exp({\mathbf \Delta \mathbf A}), \\ \overline{{\mathbf B}} &= ({\mathbf \Delta \mathbf A})^{-1} (\exp({\mathbf \Delta \mathbf A}) - {\mathbf I}) \cdot {\mathbf \Delta \mathbf B}, \\ h_t &= \overline{{\mathbf A}} h_{t-1} + \overline{{\mathbf B}} x_t, \\ y_t &= {\mathbf C}h_t. \end{align*} ABhtyt=exp(ΔA),=(ΔA)1(exp(ΔA)I)ΔB,=Aht1+Bxt,=Cht.

Mamba 通过实施选择性机制(Selective Scan Mechanism,S6)作为其核心 SSM 运算符。在 S 6 中,参数 B ∈ R B ∗ L ∗ N B \in R^{B*L*N} BRBLN C ∈ R B ∗ L ∗ N C\in R^{B*L*N} CRBLN 以及 Δ ∈ R B ∗ L ∗ D \Delta \in R^{B*L*D} ΔRBLD 直接从输入数据 x ∈ R B ∗ L ∗ D x \in R^{B*L*D} xRBLD 中导出,表明其具有内存的上下文敏感性与自适应权重调节能力。

以下左图是 Mamba 架构

视觉的双向 SSM

原始的Mamba模块是为一维序列设计的,对于需要空间感知的视觉任务来说不够。基于此,Vision Mamba引入了图2b中的双向Mamba(B-Mamba)模块,它适应了专为视觉应用的双向序列建模。此模块通过同时的前向和后向SSM处理扁平化的视觉序列,增强了其空间感知处理能力。

在本文中,作者扩展了 B-Mamba 模块以理解三维视频。

模型架构

首先使用 3D 卷积(1*16*16 )将输入视频 X v ∈ R 3 ∗ T ∗ H ∗ W X^v \in R^{3*T*H*W} XvR3THW 投影到 L L L 个不重叠的时空补丁 X p ∈ R L ∗ C X^p\in R^{L*C} XpRLC 中,其中 L = t ∗ h ∗ w ( t = T , h = H 16 , w = W 16 ) L = t*h*w(t = T,h = \frac{H}{16}, w = \frac{W}{16}) L=thw(t=T,h=16H,w=16W)。输入到后续 videoMamba 编码顺路的标记序列为:

X = [ X c l s , X ] + p s + p t X = \left[ \mathbf{X}_{cls}, \mathbf{X} \right] + \mathbf{p}_{s} + \mathbf{p}_{t} X=[Xcls,X]+ps+pt

X c l s X_{cls} Xcls 是一个可学习的分类标记,预置在序列的开头。 p s ∈ R ( h w + 1 ) ∗ C p_s \in R^{(hw+1)*C} psR(hw+1)C 是一个可学习的空间位置嵌入, p t ∈ R t ∗ C p_t \in R^{t*C} ptRtC 是一个可学习的时间嵌入。这两个用于保留时空位置信息(SSM 建模对标记位置敏感)。之后,token X X X 通过 L L L 个堆叠的 B-Mamba 模块传递,最终层的 [cls] token 表示通过归一化和线性层进行分类处理。

时空扫描

为了将 B-Mamba 层应用于时空输入,将原始的 2D 扫描扩展为不同的双向 3D 扫描:

  1. (a)空间优先,按位置组织空间标记,然后逐帧堆叠
  2. (b)时间优先,基于帧排列时间标记,然后沿空间维度堆叠
  3. 时空,结合空间优先与时间优先
    1. (c):进行一半
    2. (d):进行全部(2 倍于 c 的计算)

经过消融实验表明,空间优先的双向扫描是最有效且简单的。

VideoMamba 是基于 Vim 构建的,通过省略中间 [cls] token 和旋转位置嵌入等特性简化了其架构,在 ImageNet-1 k 上有出色的表现。VideoMamba 严格遵循 ViT 设计,无下采样层。为了解决过拟合的问题,引入了一种有效的自蒸馏技术。

VideoMamba 比传统的基于注意力的模型更高效,同时也可显著减少使用的 GPU 内存。以下是两者的对比。

左图为图片处理速度,右图为 gpu 内存占用情况。

模型的超参数

使用 Mamba 中的默认超参数,将状态维度与扩展比设置为 16 与 2。而不同的深度与嵌入维度对应着不同规模的模型,以下是参数:

较大的模型会出现过拟合的现象,导致性能不佳,如下图 a 所示:

为了抵消较大 Mamba 模型中的过拟合,引入了一种有效的自蒸馏策略,使用一个较小且训练良好的模型作为教师,指导大的学生模型训练,结果如图 a 所示。

掩码建模

为了增强时间敏感性并验证其与文本模态的适应性,作者采用了一种受 UMT 启发的掩码对齐方法。

首先,VideoMamba 在仅视频数据上从头开始训练,将未掩盖的标记与来自 CLIP-ViT 的标记进行对齐。随后,它与文本编码器和跨模态解码器集成,以在图像-文本和视频-文本数据集上进行预训练。由于 VideoMamba 的独特架构(SSM 与 Transformer),我们仅对最终输出进行对齐。

以下是提出的不同的行掩码技术。从而来满足 B-Mamba 块对连续标记的偏好。

剪辑行掩码与帧行掩码的区别在于,前者掩盖整个视频剪辑,而后者则单独掩盖每一帧。

模型评估

自蒸馏效果

由上图 6 可知:

  • 从头开始训练时,VideoMamba-B 更容易过拟合,表现不如 VideoMamba-S,而 VideoMamba-M 则表现相似。
  • 自蒸馏在实现所需优化方面表现出色,且仅需极少的额外计算成本。

为了减少教师的过度指导,作者在图 6 b 中尝试了早停法,但是没有有效的结果。

结果

展示了在 ImageNet-1k 数据集上的结果。可以发现,VideoMamba-M 在使用更少的参数下,比其他同构架构有显著的优势。

同时,VideoMamba-M 在利用分层特征增强性能的非同构骨干网络中也表现出色。

短期视频理解

在场景相关数据集 Kinetics-400 与时间相关数据集 Something-Something V2 上评估了 VideoMamba,这两个数据集的视频平均长度分别为10秒和4秒。

以上两表列出了在短期视频数据集上的结果。

  1. 监督学习:与纯注意力方法相比,VideoMamba-M 取得了显著的优势。在高准确率的同时有着显著减少的计算需求与较少的预训练数据。
  2. 自监督学习:在掩码预训练下,VideoMamba 超过了 VideoMAE,突显了纯 SSM 模型在高效,有效理解短期视频方面的潜力。

消融研究

作者研究了各个方面

  1. 扫描类型:空间优先的方法最有效
  2. 帧与分辨率:更高的分辨率无法带来更好的性能,增加帧数在 K400 数据集上有提升,但是在 SthSthV2 数据集上无提升。可能由于视频持续时间效短,无法有效容纳更长的输入
  3. 掩码预训练:行掩码与1D卷积特别兼容,优于常用的随机和管状掩码。剪辑行掩码因其较高的随机性而表现出色。注意力掩码通过优先保留相邻的有意义内容而成为最有效的方法。

长期视频的理解

使用了三个数据集:BreakfastCOIN 和长视频理解(LVU)。

结果如上所示:即使在较小的模型规模下也能实现最先进(SOTA)的结果。

多模态视频理解

在五个主要基准上进行零样本视频-文本检索任务,包括 MSRVTTDiDeMoActivityNetLSMDCMSVD

在相同的预训练语料库和相似的训练策略下,VideoMamba 在零样本视频检索性能上优于基于 ViTUMT。这强调了 Mamba 在处理多模态视频任务时与 ViT 相当的效率和可扩展性。值得注意的是,对于包含较长视频长度(如 ANetDiDeMo)和更复杂场景(如 LSMDC)的数据集,VideoMamba 表现出显著的改进。这表明 Mamba 即使在具有挑战性的多模态环境中,也能够满足跨模态对齐的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/412817.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hbuilder创建的项目(uniApp + Vue3)中引入UnoCSS原子css引擎

这里是UnoCSS的官网介绍 UnoCS通过简化和优化CSS的编写过程来提高Web开发的效率和可维护性。好处是: 提升开发效率提升开发效率提高一致性增强灵活性易于维护方便的集成与配置 同时还支持预设变量和规则。这些可参看官网进行配置。Unocss通过其原子化方法、高度的…

第二证券:静态市盈率与动态市盈率有什么区别?

市盈率(PE),是指投资者愿意为每一元净利润所支付的价格。 股票的市盈率股票价格(P)/每股净利润(EPS),或者用公司其时总市值/公司上一年总净利润。 动态市盈率与静态市盈率的区别&a…

<数据集>遥感航拍飞机和船舶和识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:19973张 标注数量(xml文件个数):19973 标注数量(txt文件个数):19973 标注类别数:2 标注类别名称:[ship,plane] 序号类别名称图片数框数1ship17575416292plane239815…

对比 PDAF、CDAF 和 LAAF 自动对焦技术

深入解析相位检测自动对焦(PDAF) 相位检测自动对焦(PDAF,Phase Detection Auto Focus)是一种高效的自动对焦技术,广泛应用于现代数码相机、无反相机和智能手机摄像头中。为了更好地理解 PDAF,我…

基于协同过滤算法的电影推荐系统的设计与实现(论文+源码)_kaic

摘 要 现在观看电影已逐渐成为人们日常生活中最常见的一种娱乐方式,人们通常会在周末或在休息、吃饭时间不由自主地在各种视频软件中搜索当前火热的影视节目。但是现在的视频软件电影推荐功能不够完善,所以需要开发出一套系统来使用户只需要简单操作就能…

华为云征文|部署私有云和文档管理系统 Kodcloud

华为云征文|部署私有云和文档管理系统 Kodcloud 一、Flexus云服务器X实例介绍1.1 云服务器介绍1.2 应用场景1.3 对比普通ECS 二、Flexus云服务器X实例配置2.1 重置密码2.2 服务器连接2.3 安全组配置 三、部署 Kodcloud3.1 Jellyfin 介绍3.2 Docker 环境搭建3.3 Jell…

【智能算法改进】路径规划问题的多策略改进樽海鞘群算法研究

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】樽海鞘群算法(SSA)原理及实现 2.改进点 无标度网络策略 复杂网络在图论中可以用边和节点表示, Barabasi 等于1999年通过分析大量的数据提出了无标度网络模型. 该网络…

人像比对-人证比对-人脸身份证比对-人脸身份证实名认证-人脸三要素对比-实人认证

​ 人证比对API接口,全称为人脸身份证比对API接口,也被称为人脸实名认证API接口或实人认证API接口。这种接口服务主要用于将提供的人脸图片和对应的身份证照片、姓名、身份证号码进行比对,以此验证用户的身份。以下是关于人证比对API接口的详…

[易聊]软件项目测试报告

一、项目背景 随着互联网发展,各种各样的软件,比如游戏、短视频、购物软件中都有好友聊天功能,这是一个可在浏览器中与好友进行实时聊天的网页程序。“ 易聊 ”相对于一般的聊天软件,可以让用户免安装、随时随地的通过浏览器网页…

UDP英译汉网络词典

这里我们用UDP实现一个简单的英译汉小词典。我们还是仿照前一篇的UDP编程,将各自的组件封装起来,实现高内聚低耦合。 一. 字典翻译功能实现 首先我们将我们的字典知识库放在txt文本中。 apple: 苹果 banana: 香蕉 cat: 猫 dog: 狗 book: 书 pen: 笔 ha…

浮毛粘毛器可以彻底去除吗?独家揭秘值得入手浮毛空气净化器

有没有养猫五年以上还是单猫的铲屎官?能不能分享一下怎么才能控制住不养新猫。 从我养第一只猫开始,每次看到别人家的小幼猫,就控制不住的想养。到现在,家里已经有了7只猫,而前段时间楼下那只小三花又差点让我破例。不…

Keil5 Debug模式Watch窗口添加的监控变量被自动清除

Keil5 Debug模式Watch窗口添加的监控变量被自动清除 问题解决记录 问题描述:每次进入Debug模式时,watch窗口里面上一次调试添加的监控变量都会被全部清掉 如图: 退出Debug模式后,重新进入Debug模式: 解决方法&…

INFO:一种基于向量加权平均的高效优化算法【免费获取Matlab代码】

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献5.代码获取 1.背景 2022年,I Ahmadianfar受到基于向量加权平均方法启发,提出了加权平均向量优化算法(weIghted meaN oF vectOrs, INFO)。 2.算法原理 2.1算法…

在线任务分发系统开发架构分析

在线任务分发系统的架构分析是一个综合性的过程,涉及多个技术层面和功能模块的设计。以下是对在线任务分发系统架构的详细分析: 一、系统概述 在线任务分发系统是一个集任务发布、分配、执行、监控及反馈于一体的综合平台,它通过互联网技术实…

超详细带你学习go高性能web框架----fiber

go-fiber-fast go-fiber 主要定位为一个轻量级、高性能的 Web 框架,但其灵活性使得它可以通过与其他库的集成,构建出强大而多功能的应用程序,满足不同的业务需求,和gin一样轻量级别的路由,但是性能特别是极端性能比gin好一些,都可以通过整合其…

【Gradle】window下安装gradle及idea配置

gradle安装与配置 背景基本概念下载配置环境变量idea配置构建命令配置全局的镜像仓库 背景 最近在看spring源码时,Spring5 以后都是采用 Gradle 来编译,所以构建源码前先安装 Gradle 环境。 基本概念 Gradle是一个基于Apache Ant和Apache Maven概念的…

优化农业项目流程 10款实用管理系统推荐

国内外主流的 10 款农业建设管理系统对比:PingCode、Worktile、建米农业工程项目管理系统、泛普软件的农业项目管理系统、开创云数字农业管理平台、Trimble Ag Software、Agworld、FarmLogs、Granular、Conservis。 在管理复杂的农业建设项目时,选择合适…

LuaJit分析(三)luajit字节码文件格式

Luajit字节码文件格式的完整信息如上图所示,包括文件头Header和原型Proto,一个原型可以对应lua源码中的一个函数或源文件。一、文件头文件标志:占用三个字节,始终是0x1B4C4A,表示这是一个luajit文件版本:占…

时序预测 | 基于VMD-SSA-LSSVM+LSTM多变量时间序列预测模型(Matlab)

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 旧时回忆,独此一家。基于VMD-SSA-LSSVMLSTM多变量时间序列预测模型(Matlab) ——————组合模型预测结果—————————— 预测绝对平均误差MAE LSTM VMDSSALSSVM 组合模型 …

Java项目:基于SpringBoot+mysql在线拍卖系统(含源码+数据库+答辩PPT+毕业论文)

一、项目简介 本项目是一套基于SSM框架mysql在线拍卖系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作简单、功能齐全、…