达摩院快速动作识别TPS ECCV论文深入解读

  团队模型、论文、博文、直播合集,点击此处浏览

一、论文&代码

论文:Spatiotemporal Self-attention Modeling with Temporal Patch Shift for Action Recognition

模型&代码:https://modelscope.cn/models/damo/cv_pathshift_action-recognition/summary

二、背景

高效的时空建模(Spatiotemporal modeling)是视频理解和动作识别的核心问题。相较于图像的Transformer网络,视频由于增加了时间维度,如果将Transformer中的自注意力机制(Self-Attention)简单扩展到时空维度,将会导致时空自注意力高昂的计算复杂度和空间复杂度。许多工作尝试对时空自注意力进行分解,例如ViViT和Timesformer。这些方法虽然减小了计算复杂度,但会引入额外的参数量。本文提出了一种简单高效的时空自注意力Transformer,在对比2D Transformer网络不增加计算量和参数量情况下,实现了时空自注意力机制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。文章已被ECCV 2022录用。

三、方法

视觉Transofrmer通常将图像分割为不重叠的块(patch),patch之间通过自注意力机制(Self-Attention)进行特征聚合,patch内部通过全连接层(FFN)进行特征映射。每个Transformer block中,包含Self-Attention和FFN,通过堆叠Transformer block的方式达到学习图像特征的目的

在视频动作识别领域,输入的数据是连续采样的多帧图像(常用8帧、16帧、32帧等)学习视频的时空特征,不仅要学习单帧图像的空间视觉特征,更要建模帧之间的时域特征。本文提出一种基于视觉transformer的高效时空特征学习算法,具体来说,我们通过将patch按照一定的规则进行移动(patch shift),把当前帧中的一部分patch移动到其他帧,同时其他帧也会有一部分patch移动到当前帧。经过patch移动之后,对每一帧图像的patch分别做Self-Attention,这一步学习的特征就同时包含了时空特征。具体思想可以由下图所示:

在常用的2D图像视觉Transformer网络结构上,将上述patch shift操作插入到self-attention操作之前即可,无需额外操作,下图是patch shift transformer block,相比其他视频transformer的结构,我们的操作不增加额外的计算量,仅需进行内存数据移动操作即可。对于patch shift的移动规则,我们提出几种设计原则:1. 不同帧的块尽可能均匀地分布。2.合适的时域感受野。3.保持一定的移动块比例。具体的分析,读者可以参考正文。

我们对通道移动(Channel shift) 与 块移动(patch shift)进行了详尽的分析和讨论,这两种方法的可视化如下:

通道移动(Channel shift) 与 块移动(patch shift)都使用了shift操作,但channel shift是通过移动所有patch的部分channel的特征来实现时域特征的建模,而patch shift是通过移动部分patch的全部channel与Self-attention来实现时域特征的学习。可以认为channel shift的时空建模在空域是稠密的,但在channel上是稀疏的。而patch shift在空域稀疏,在channel上是稠密的。因此两种方法具有一定的互补性。基于此,我们提出交替循环使用 patchshift和channel shift。网络结构如下图所示:

四、实验结果

1. 消融实验

2. 与SOTA方法进行对比

3. 运行速度

可以看到,PST的实际推理速度和2D的Swin网络接近,但具有时空建模能力,性能显著优于2D Swin。和Video-Swin网络相比,则具有明显的速度和显存优势

4. 可视化结果

图中从上到下依次为Kinetics400, Diving48, Sthv1的可视化效果。PST通过学习关联区域的相关性,并且特征图能够反映出视频当中动作的轨迹。

 五、应用

        接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66306.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python动物图像分割API简单调用实例演示,阿里达摩院视觉智能开放平台使用步骤

阿里云视觉智能开放平台 - 动物分割 效果图演示平台入口创建获取密钥本地图片转 URL 与密钥测试代码调用演示语义分割知识拓展阿里云达摩院智能视觉开放平台 效果图演示 调用本地图片处理后可以直接保存到本地,右边就是分割好的效果图,可以看到分割的效…

在本地机房享受专属公共云服务,详解阿里云本地化部署服务云盒

6月30日,阿里云宣布本地化部署服务阿里云云盒Cloud Box正式上线。从即日起,用户通过阿里云官网下单即可购买。 各行业上云已成趋势,随着大数据、人工智能、物联网、5G 等技术的快速发展,大部分公司将数字化转型列为企业的优先战略…

【洞见观点】金融领域隐私计算平台间的互联互通技术实践与研究

目录 互联互通的定义 互联互通的原则 互联互通演进史 第一阶段:业务驱动不同厂商的隐私计算平台一对一对接 第二阶段:厂商自定义自己的互通规范 第三阶段:形成行业统一的标准规范 互联互通的实现路径 第一层次:管理系统互通 1)节点发现 2)资源…

港科资讯 | 香港科技大学经济学博士2023招生夏令营

为了让有志于在经济学领域继续深造的学生与我们的师生互动,感受科大校园的学习、研究和生活环境,香港科技大学(科大)商学院经济学博士项目将于今夏举办为期两天的招生夏令营,我们欢迎广大优秀学子踊跃申请。 优秀的参与…

教授专栏37 | 黄昊: 发展虚拟资产, 须监管教育并行

文 / 黄昊教授 全球第二大虚拟货币交易所FTX早前 「爆煲」 申请破产,其创办人兼行政总裁SamBankman-Fried (SBF) 辞任行政总裁。FTX于2019年成立后,先后共获10多亿美元融资,当中不乏知名机构,包括红杉资本、软银、淡马锡及贝莱德等…

FinTech活动 | “金融科技创新应用与发展”研讨会25日在金融街举办

8月25日,由北京金融街服务局、国家金融与发展实验室金融科技研究中心主办,金融科技50人论坛、神州信息协办,中国人民大学国家发展与战略研究院、中国人民大学国际货币研究所、浙江大学互联网金融研究院、中关村互联网金融研究院、深圳市金融科…

香港科技大学有什么好的专业?

香港科技大学创办于1991年10月,是一所坐落于香港清水湾半岛的公立研究型大学。大学设有4个学院:工学院、理学院、人文社会科学学院和工商管理学院,还设有2个研究院:香港科技大学公共政策和行政研究生院和香港科技大学霍英东研究院…

达观数据荣获长三角金融科技研究院和《金融电子化》2021中国金融科技领军企业

近日,由长三角金融科技研究院和《金融电子化》杂志社联合主办的“2022金融科技创新与应用外滩高峰论坛暨第二届长三角金融科技创新与应用全球大赛总决赛”中,达观数据凭借数字化信贷办公机器人项目在此次比赛中脱颖而出,荣获“2021中国金融科…

港科招生 | 香港科大DBA(工商管理博士)项目介绍和科研成果分享

香港科大DBA(工商管理博士) 项目介绍和科研成果分享 科技会减少我们对官方数据的依赖吗? 在追求卓越研究和创新思维的抱负下,香港科技大学商学院延续其 30 年的卓越历史,坚定不移地致力于学术独创性和严谨的科研项目。…

【金融科技前沿】【长文】金融监管、监管科技以及银行业监管报送概述

上周金融科技前沿课程的主题是《监管科技》,韩海燕老师从金融监管引入,介绍了我国的金融监管体系,接着进入监管科技的详细讲解。我觉得最主要的是弄清楚监管科技的定义,以及在实际的银行业应用场景中具体的运作流程是怎么样的。韩…

毗邻华尔街,哥伦比亚大学、纽约大学如何将金融科技的理论与实践结合?

互联网技术正在深刻变革我们的生活,其中,自然少不了金融这一与我们生活息息相关的领域。互联网技术不仅能够解决金融行业的在传统融资、清算、投资管理、借贷、支付、保险等领域的原有挑战,还能极大发挥出金融数据的价值。 我们把这个互联网技…

金融领域7大数据科学案例

金融领域7大数据科学案例 1 金融领域有哪些典型数据问题? 2 金融领域应用那些数据科学方法? 近年来,数据科学和机器学习应对一系列主要金融任务的能力已成为一个特别重要的问题。 公司希望知道更多技术带来的改进以及他们如何重塑业务战略。…

报道丨香港科技大学今年增设金融科技专业!

移动支付、电子货币、区块链、金融大数据、机器学习和认知计算等技术已经开始广泛渗透金融行业,金融科技已上升到国家战略层面,金融业在科技推动下的发展日新月异,对人才也提出了更高的要求,因此,培养新型金融科技人才…

港科资讯 | 香港科大EMBA校友会2021-2022最佳案例奖颁发

香港科大EMBA校友会冠名的香港科大商学院2021-2022 最佳案例奖于12月5日举行颁奖仪式。第三届校友会常务副主席许坚真校友及第四届校友会常务副主席高静校友做为颁奖嘉宾出席了颁奖典礼。 来自香港科大商学院资讯、商业统计及运营学系刘绍民(Ronald Lau)…

教授专栏04 | 谭嘉因:全球八大金融科技枢纽发展之[香港如何迈向全球领先地位]...

文 / 谭嘉因教授 金融科技是“金融”和“科技”两个词的结合,指通过科技手段对传统金融行业所提供的产品和服务进行创新。近年来,金融科技在全球范围内快速发展,为用户提供便捷、全天候、低成本的金融服务,并形成了数十亿美元级的…

中国社科院与美国杜兰大学金融管理硕士项目,引领你走在金融行业前沿

作为金融领域从业人员时刻都在关注行业最新资讯,只有掌握一手的前沿讯息,才能在职场上无往不胜。针对在职的你,如何利用业余时间让自己更增值呢,中国社科院与美国杜兰大学金融管理硕士项目引领你走在金融行业前沿。 金融管理硕士…

chatgpt赋能python:使用Python创作动画:介绍

使用Python创作动画:介绍 Python是一种广泛使用的高级编程语言,被许多工程师和科学家用于数据分析、人工智能等各种应用。但是,除了这些领域外,Python也可以用于创作动画。 在本文中,我们将探讨如何使用Python创建动…

chatgpt赋能python:使用Python进行动画制作指南

使用Python进行动画制作指南 在过去,动画制作是一个需要大量手动绘画和剪辑的艰巨工作。但随着计算机技术的发展,许多人可以通过使用3D建模和动画软件来轻松地制作动画。不过,这些软件往往非常昂贵,不适合所有人使用。 Python是…

chatgpt赋能python:Python如何绘制二维图表

Python如何绘制二维图表 在数据可视化的过程中,绘制图表是必不可少的一环。Python作为一种高效且易于学习的语言,能够方便地绘制二维图表。本篇文章将介绍如何使用Python绘制二维图表,并介绍其中的一些优秀库。 1. Matplotlib库 Matplotli…

图像描述算法排位赛:SceneXplain 与 MiniGPT4 谁将夺得桂冠?

如果你对图像描述算法的未来感到好奇,本场“图像描述算法排位赛”绝对是你不能错过的!在这场较量中,SceneXplain 和 MiniGPT-4 将会比试,谁将摘得这场比赛的桂冠? 背景介绍 在上篇文章中,我们介绍了图像描述…