斯坦福李飞飞团队新作:刷榜视觉自监督

点击上方“AI遇见机器学习”,选择“星标”公众号

第一时间获取价值内容

829cdd9f7403a73ad8779f89d1c91184.gif

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:新智元

在计算机视觉领域,想要建立图像和场景(scene)之间之间的对应关系是一项比较困难的任务,尤其是在存在遮挡、视角改变或是物体外观发生变化的情况下。

最近,斯坦福大学李飞飞团队对MAE进行扩展,提出了孪生掩码自编码器SiamMAE(Siamese Masked Autoencoders)以学习视频中的视觉对应关系。

32bd34cfe98133bcc168b64fe5fe8098.png

论文链接:https://siam-mae-video.github.io/resources/paper.pdf

先随机采样两个视频帧,并进行非对称掩码操作;然后SiamMAE编码器网络对两个帧进行独立处理,最后使用交叉注意层组成的解码器来预测未来帧(future frame)中丢失的图像块。

通过对未来帧中的大部分(95%)图像块进行掩码,同时保持过去帧(past frame)图像不变,SiamMAE促使网络专注于物体运动,并学习以物体为中心的表征。

8b379dedf604110ef2c8aefe6b7059aa.gif

尽管整个网络的设计概念比较简单,但通过SiamMAE学习到的特征在视频物体分割、姿势关键点传播和语义部分传播任务上都优于最先进的自监督方法。

SiamMAE在不依赖于数据增强、基于手工跟踪的前置任务或其他技术来防止表征崩溃的情况下,实现了非常有竞争力的性能。

孪生掩码自编码器

研究人员的目标是开发一种自监督的方法来学习对应关系,主要是将掩码自编码器(MAE)模型扩展到视频数据中。

68fd03c0fa71c2c2ab3faa7479780338.png

Patchify

给定具有L帧的视频剪辑,首先随机采样两个视频帧,两帧之间的距离通过从预定的potential frame gaps范围中选择一个随机值来确定。

与原始ViT模型类似,通过将每个帧转换为一系列不重叠的N×N个patch来拼接视频帧。

最后,把位置嵌入加到线性投影上,并附加一个[CLS]标记,需要注意的是没有使用时序位置嵌入。

Masking

像图像和视频这样的自然信号是高度冗余的,分别表现为空间和时空上的冗余。

为了创造一个具有挑战性的预测性自监督学习任务,MAEs随机掩码了75%的图像patch,视频数据的掩码率提升到90%,并且对每帧都使用相同的掩码率。

这种设计可以使网络无法利用和学习到时间上的对应关系,避免在对应关系学习基准上达到次优性能。

研究人员认为,不对称的掩码可以创造一个更有挑战性的自监督学习任务,并且可以鼓励网络学习时间上的相关性。

所以对于采样的两个视频帧,对第一帧选择不掩码,对第二帧选择掩码95%,这样就可以将整个过去帧(entire past frame)作为输入,网络只需要将其扩散到未来中的适当位置即可,可以促进网络对物体运动进行建模并关注物体的边界。

37c7f8459977de7cf863d4dce87e0110.png

为了进一步增加任务的难度,两个视频帧之间具有更大的时间间隔,尽管可能会导致对未来的预测变得模糊,并可能产生多种合理的结果,但为第二帧提供少量的patch作为输入,可以让网络的自监督学习变得更困难。

编码器

研究人员探索了两种不同的编码器配置来处理输入帧。

联合编码器(joint encoder)是图像MAEs在一对视频帧上的扩展,把两帧未掩码的图像patch串联起来,然后输入到标准的ViT编码器中进行处理。

孪生编码器(siamese encoder)是用于比较实体的权重共享神经网络,是对比表征学习方法的一个重要组件,用于对应学习(corresponding learning)时通常需要一些信息瓶颈来防止网络学习的解决方案,如使用颜色通道dropout来迫使网络避免依赖颜色来匹配对应关系。

在这篇论文中,研究人员使用孪生编码器来独立处理两幅图像,使用非对称掩码作为信息瓶颈。

解码器

编码器的输出通过线性层进行投影,并加入带有位置嵌入的[MASK] token,以生成对应于输入帧的所有token

研究人员探索了三种不同的解码器配置:

联合解码器(joint decoder)在两帧的token串联上使用原版Transformer模块,其主要缺点是对GPU内存的需求大幅增加,特别是在使用较小的patch尺寸时。

交叉自解码器(cross-self decoder)与原版Transformer模型的编码-解码器设计类似,每个解码器块由一个交叉注意力层和一个自注意力层组成,来自第二帧的token通过交叉注意力层与第一帧的token进行注意力操作,然后通过自注意力层进行相互融合。

可以注意到,交叉注意力层在功能上类似于自监督对应学习方法中经常使用的affinity矩阵。

交叉解码器(cross decoder)由交叉注意力层的解码器块组成,其中来自第二帧的token与来自第一帧的token进行注意力操作。

最后,解码器的输出序列被用来预测掩码图像块中的归一化像素值,在解码器的预测和真实值之间使用L2损失。

实验结果

880d7c8997cbfc1f7066d15d76245527.png

视频物体分割

在多物体分割基准数据集DAVIS 2017上,使用480p分辨率的图像对模型进行评估。

实验结果可以发现SiamMAE明显优于VideoMAE(从39.3%提升到62.0%),研究人员将其归因于VideoMAE中使用了tube掩码方案,使得模型无法学习时间上的对应关系。

25a0b631d3b1ce8fb1c2b45031cf74d3.png

与DINO类似,研究人员也发现降低patch的尺寸会带来明显的性能提升。

并且文中使用的ViT-S/8(+9.4%)模型优于之前所有的对比学习和自监督的对应学习方法。

c1f60be70745f1c6f7eeb7ae74c31959.gif

还可以注意到尽管较大的MAE-ST模型(ViT-L/16,304M参数)在随机掩码的情况下比VideoMAE表现更好,但其性能仍然落后于SiamMAE相当多。

而且在视频上训练的MAE与图像MAE的表现相似,视频与图像的不同之处在于,图像是(近似)各向同性的,时间维度是特殊的,并不是所有的时空方向都是同等可能的。

因此,对称地处理空间和时间信息可能是次优的。

视频部分分割(Video Part Segmentation)

在视频实例解析(Video Instance Parsing, VIP)基准上对SiamMAE进行评估,该基准包括为20个不同的人体部位传播语义掩码。

与评估的其他数据集相比,VIP特别具有挑战性,因为包括更长的视频(最长120秒)。

与先前工作类似,使用560×560的图像和单一背景帧进行评估后,可以发现ViT-S/8模型性能大大超越了DINO (从39.5提升到45.9)。

4c47e1bc1ad07798368728f8b1d1cc73.gif

SiamMAE从更小的patch尺寸中,比DINO受益更多,实现了+8.6的mIoU评分,比DINO的+3.3 mIoU有所提高。

SiamMAE也优于之前所有的对比学习和自监督的对应关系学习方法。

姿势追踪(pose tracking)

在关键点传播的任务上对SiamMAE进行了评估,需要传播15个关键点,并且要求空间上的精确对应关系,使用320×320的图像和一个单一的背景帧,SiamMAE的性能优于所有其他模型,并且比DINO更受益于较小的patch尺寸(+14.9到+10.9 PCK@0.1)

9cc97a0fd5f854aa8fcaff5322b3bc47.gif

1970bba0c617accf0fc65739db6b1b76.jpeg

欢迎大家加入我的这个”AIGC与GPT“知识星球,价格便宜,目前已有近130人

作为一个大厂算法工程师和机器学习技术博主,我希望这个星球可以:

  • 【最全免费资源】免费chatgpt-API,最新AIGC和GPT相关pdf报告和手册。

  • 【最专业算法知识】Transformer、RLHF方法、多模态解读及其论文分享。

  • 【最新变现姿势】如何结合ChatGPT应用落地,各种可以作为副业的AIGC变现方式,打好这个信息差。

  • 【最有趣AICG】ChatGPT+midjourney拍电影,制作壁纸,漫画等等有趣的AICG内 容分享。

一些截图:

bf860db916e182da0642b31f08c3206f.png

aa748a2a5efd65260536e63aaa5e8372.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/55632.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

动手实现一遍Transformer

最近乘着ChatGpt的东风,关于NLP的研究又一次被推上了风口浪尖。在现阶段的NLP的里程碑中,无论如何无法绕过Transformer。《Attention is all you need》成了每个NLP入门者的必读论文。惭愧的是,我虽然使用过很多基于Transformer的模型&#x…

BERT大火却不懂Transformer?读这一篇就够了 原版 可视化机器学习 可视化神经网络 可视化深度学习...20201107

20211016 调节因子 20211004 【NLP】Transformer模型原理详解 - 知乎 论文所用 20210703 GPT模型与Transformer进行对比_znevegiveup1的博客-CSDN博客_gpt transformer GPT模型与Transformer进行对比 GPT采用了Transformer的Decoder,而BERT采用了Transformer中的En…

基于Python QQBot库的QQ聊天机器人

项目地址:https://github.com/pandolia/qqbot 1.安装 pip install qqbot 2.主动发出消息 from qqbot import _bot as bot# 登录QQ bot.Login([-q, 2816626661]) buddy 获取指定名称/备注的好友 group 获取群buddy bot.List(buddy, b.K)# 判断是佛存在这个好友 …

python+qqbot实现qq聊天机器人

##pythonqqbot实现qq聊天机器人 ###1. 安装qqbot 使用pip安装qqbot pip install qqbot###2. 登录qq 在安装完qqbot后,就可以进行qq的登录了,使用qqbot命令进行登录,在命令行输入qqbot,然后会弹出来二维码,你进行扫码后…

基于go-cqhttp实现QQ机器人

前言 本篇文章原文:http://www.7yue.top/rabbitbot/ 本篇文章记录一下自己在编写QQ机器人的时候所遇到的一些问题和核心功能的实现。 QQ机器人RabbitBot采用python编写,由于是个人学习使用,故目前不会开源完整代码,只会放出核心…

腾讯官方可编程QQ机器人来了?QQHook

今天突然看见关于QQHook的最新消息,现在还是内测阶段 先打开链接(需要用手机QQ打开):https://web.qun.qq.com/qunrobot/data.html?robot_uin2854196399&_wwv128&_wv3 打开后就会显示Hook: 点击“添加到群聊…

【腾讯广告】监测链接和API自归因回传接口逻辑

开头吐槽一下腾讯的文档是真的垃圾。以下是我自己的理解和经历 大概流程 新建广告–》配置网页链接—》配置监测链接(用来监测网页链接,腾讯到时候会通过这个链接回传给我们一个url,URL的参数就是你配置的参数:如click_id等&…

围观GPT应答全国甲卷高考题

原文:围观GPT如何应答全国甲卷作文题看看AI写出的作文怎么样?https://mp.weixin.qq.com/s/_tk3AxeiQAT6ntQZSe9B1g 2023年全国甲卷作文题目: 阅读下面的材料,根据要求写作-60分 人们因技术发展得以更好的掌控时间,但…

PlumGPT【告别梯子,拥抱AI】

相信很多人苦于没有openai账号或者有着种种原因至今还没有使用过chatgpt,今天向大家推荐一个网站,在国内也可以任意方便使用,让你的办公效率最大化。 那就是PlumGPT:https://plumgpt.com/ PlumGPT(国内版的chatgpt&a…

TED演讲集 TED视频打包下载(MP4+中英字幕) TED中英文对照字幕视频 TED资料文档 完整

TED演讲集 TED视频打包下载(MP4中英字幕) TED中英文对照字幕视频 TED资料文档 学习英语的好帮手 TED1984-2019全部中英对照演讲稿集视频 下载CSDN 一、TED简介: TED(指Technology, Entertainment, Design在英语中的缩写&#…

都说程序员加班很严重,来听听国外的程序员怎么说

据说,某互联网公司招了个日本人做研发,上班第一天就对部门同事说:“我在日本工作时是个加班狂,每天都很晚回家,希望大家跟上我的步伐。”一个月之后他辞职回日本了,扔下一句话:“你们这样加班&a…

不想上班啊不想上班

不想上班啊不想上班!!!! 刚星期一就盼着星期五..

如果你不想工作了,先做这3件事

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 英国作家毛姆有句名言:“我从来不会厌倦生活,只是厌倦了那些毫无生气的生活方式。”把这句话稍微修改一下,放在职场也无比适用“我并不厌倦工作,只是厌倦了那些毫无…

聊聊自由职业:我为什么不想再回公司上班

离开大公司以后,我一直就没什么“正经”工作。创过业,做过CEO,还有各种或长或短的兼职顾问,按照现在政策的说法,我这也算“灵活就业”了,或者说,是“自由职业”,算算已经7年多了。 一…

如果你不想上班了,建议你做这4件事

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 每次假期结束,很多人自己对一成不变的工作提不起兴趣,迟迟不能进入状态。还有很多读者给K哥留言,实名羡慕K哥一边做着上市公司的高管,一边经营着自己的媒…

基于Anki+Vocabulary的英语单词记忆法

在这里给大家分享一下一个背英语单词的方法(目前感觉是最适合自己的方法) 介绍自己的方法之前,先给大家介绍两款软件: 一、Anki: 介绍: anki是一个辅助记忆软件,它可以在相对合适的时间来告诉你…

可能是全网最好用的桌面背单词软件

前言 之前复习考研英语时,想找一个桌面背单词软件。看到市面上只有一款DesktopVoc,功能实现的不咋地,界面臃肿不美观,关键是还要收费,索性就自己用Python写了一个悬浮窗背单词小程序,实现了调整播放速度、窗…

用python实现背单词的小脚本系统

python 前提准备 安装好python及其环境安装好Oracle数据库python中安装好cx_Oracle包,且能与数据库正常联立交互 注: 前提准备部分的内容不做描述,百度均有教程 步骤: 第一步:在oracle中创建以下表: …

360 Total Security(360国际版)官方中文版V10.8.0.1269 | 360国际版和国内版区别很大-杀毒能力相当且非常纯净不流氓

360 Total Security(360国际版)是由奇虎360公司开发的纯净无明显商业推广行为且杀毒能力一流的360杀毒软件,360国际版是为广大用户的电脑安全及效能量身打造的专业免费杀毒软件,根据360国际版官网说明得知,360国际版内…

PHP 限制输出内容的字数

2019独角兽企业重金招聘Python工程师标准>>> 一、contentWordNumLimit($content, $maxWordNum) 1 作用描述:内容格式化(英文单双引号替换为中文,回车换行替换为html中的br标签,\n替换为空格), 限制输出内容的字数&…