论文阅读_MAE

论文信息

name_en: Masked Autoencoders Are Scalable Vision Learners
name_ch: 带遮蔽的自编码器是大规模的视觉学习者
paper_addr: https://ieeexplore.ieee.org/document/9879206/
doi: 10.1109/CVPR52688.2022.01553
date_read: 2023-04-08
date_publish: 2022-06-01
tags: [‘深度学习’,‘计算机视觉’]
journal: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
author: Kaiming He,Facebook AI Research
citation: 1601
others: MAE 论文逐段精读 https://www.bilibili.com/video/BV1sq4y1q77t/?spm_id_from=333.337.search-card.all.click&vd_source=eef058f284e51ad4598d556801a9fc84

读后感

图像领域的无监督学习,延续ViT使用Transformer结构,学习BERT遮蔽图片块,然后预测被遮蔽的块实现自我学习autoencoder。
ViT论文最后也做过类似实验,但效果并不好,MAE对此做了一些修改:遮住更多的图片块,这是由于相对于文本,图像中存在更多冗余信息;编码时只处理没遮住的部分,从而节约了算力;另外,使用与Encoder不对称的轻量级Decoder来预测遮住的块。

介绍

MAE是Masked Autoencoders的缩写,是一种用于计算机视觉的自监督学习方法。在MAE方法中,会随机mask输入图片的部分patches,然后重构这些缺失的像素。其主要技术基于ViT和BERT。

和ViT一样,先将图片切分成大小一致(一般是16x16)的Patch,遮住其中75%(图中灰色部分);然后对没遮住的块进行编码,生成隐空间表示(蓝色列,下游应用使用的就是这一步的结果),然后用隐空间预测被遮住的块,以还原图像,逐步调优使模型更好地预测遮住的块,以实现不需要标注的自我学习。

模型结构

效果展示

第一列是被部分遮蔽的图,第二列是MAE恢复的图,第三列是原图(人都脑补不成这样)。

面临问题

之前BERT方法应用到视觉所面临的问题如下:

  • 之前一直使用卷积神经网络处理图像,直至最近ViT解决了这一问题。
  • 图像数据中存在大量冗余,不像文本信息一样密集,图像中mask掉一部分可通过邻近信息插补,因此无法学习到复杂关系,文中提出mask掉高比例数据,以解决这一问题。
  • 去掉图像区域再还原像素比较困难,文中提出设计解码器解决这个问题。

核心设计

MAE基于两个核心设计:

  • 不对称的编码解码结构,编码器仅仅对可见的patches进行编码,而解码器则对所有patches进行解码,但结构更简单;
  • 使用随机掩码来遮盖输入图像的部分区域,以此来训练模型。出人意料的是,图像的大部分都遮住了,还能还原出来。
    MAE方法简单且可扩展性强(scalable),因此在计算机视觉领域得到了广泛应用。只使用ImageNet-1K来精调ViT-Huge模型,就能达到87.8%的准确率,且在其它下游任务中也表现良好。

方法

MAE使用autoencoder自编码器,由不对称的编码和解码器构造。

Mask

在不放回的情况下按照均匀分布对随机Patch抽样。简称为“随机抽样”。

  • 高掩蔽率(一般遮住75%)很大程度上消除了冗余,创建了无法通过从可见的相邻插补轻松解决的任务。
  • 均匀分布可防止潜在的中心偏差。
  • 高度稀疏的输入为设计接下来介绍的高效编码器提供可能。
    Mask具体实现同Vit,详见:备2_论文阅读_ViT

编码器

编码器是 ViT,通过添加位置嵌入的线性投影嵌入Patch,然后通过一系列 Transformer 块处理结果集。
与ViT不同的是:MAE只对整个集合的一小部分(例如 25%)进行操作,不考虑Mask掉的Patch,从而节约了计算量和内存。

解码器

如架构图所示,解码器的输入是所有Patch,并对所有块加入了位置信息,与编码器相比,默认解码器更窄而浅,每个token的计算量仅编码器的 10%,通过这种不对称设计,显著减少了预训练时间。
解码器只在预训练时使用,其下游任务只使用图-1中全蓝色的隐空间表示。

重构目标

解码器输出中的每个元素代表一个Patch的像素值向量。解码器的最后一层是线性投影,其输出通道数等于补丁中的像素值数,另外,还使用归一化方法提升重构质量。损失函数计算像素空间中重建图像和原始图像之间的均方误差 (MSE)。

简单实现

先随机打乱token顺序,删除token列表的后面一部分(相当于采样),然后送入编码器,后进行随机打乱的逆操作对齐对原来顺序加入位置信息后再送入解码器。这样简单操作开销可以忽略不计,且不用使用稀疏操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57919.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

eval有时候也可以用,而且有奇效

ChatGPT取代程序员还是给程序员加Buff? 这两周,AI新闻一个接着一个,3月23日,Google开放了内测已久的AI对话服务Bard,Google强调,这是一款定位为用户提供创意之源的产品,可生成写作草稿或生活中…

chatgpt赋能python:Python数据散点图:用于数据可视化的强大工具

Python数据散点图:用于数据可视化的强大工具 数据可视化是将数据转化为图表或图形的过程,以使人们更容易理解和解释数据。散点图是一个强大的数据可视化工具,可以使用Python来制作。 什么是散点图 散点图是一种在二维平面上以点的形式展示…

chatgpt赋能python:PythonU盘:如何使用Python为U盘增加更多功能

Python U盘:如何使用Python为U盘增加更多功能 Python已经成为了世界上使用最广泛和最流行的编程语言之一。它具有易于上手,简洁明了的语法,以及强大的库和工具生态系统,使得Python在开发各种不同类型的应用程序和系统时非常受欢迎…

缓存那些事

作者:熊明辉,美团点评酒旅事业群酒店住宿研发团队B端商家业务平台负责人,主导构建商家业务平台系统,支撑美团点评酒店住宿业务的飞速发展需求。曾任职于联想集团、百度。 责编:钱曙光,关注架构和算法领域&a…

《程序员》3月精彩内容:大数据技术辨析与深度实践

随着技术迭代的不断加速,大数据极大改变了行业领域对信息流动的限制。本期封面报道聚焦领域内热门技术与应用实践,带领大家深度解析大数据技术难点和发展趋势。厉兵秣马今点将,群雄逐鹿正当时——本期精彩不容错过。 探讨数据时代构建高可用…

关于缓存

作者:熊明辉,美团点评酒旅事业群酒店住宿研发团队B端商家业务平台负责人,主导构建商家业务平台系统,支撑美团点评酒店住宿业务的飞速发展需求。曾任职于联想集团、百度。 责编:钱曙光,关注架构和算法领域&…

旅游推荐系统的演进

作者:郑刚,美团点评高级技术专家。2010年毕业于中科院计算所,2011年加入美团,参与美团早期数据平台搭建,先后负责平台、酒旅数据仓库和数据产品建设,目前在酒旅事业群数据研发中心,重点负责酒店…

逻辑学 导论1

2010 中山大学大一新生的导论课,熊明辉视频46节每节22分钟左右,以前居然没看过,先看前6章 在中国大学MOOC上有 李静 的课程,不太一样 大学生和中学生最主要的区别是什么?就是学习要主动。 第一章 引论 4个问题 逻辑学…

大连工业大学计算机科学与技术在哪个学院,大连工业大学信息科学与工程学院到计算机与软件工程学院交流...

1月11日,大连工业大学信息科学与工程学院副院长于晓强一行到计算机与软件工程学院调研。计算机与软件工程学院院长何明星、副院长杜亚军及学院各系、办公室相关老师参加了此次交流会。双方在6A519进行了两个多小时的热烈研讨与交流。 何明星代表学院向到访的于晓强一…

ChatGPT刷力扣面试题01.01:判定字符是否唯一

Java解法: 方法一:我们可以使用一个HashSet来存储已经遍历过的字符,如果遍历到的字符已经存在于HashSet中,则说明字符串中有重复字符,返回false;否则,将字符加入HashSet中。最后,如果…

ChatGPT 最强助攻书单

GPT 是否有人的智能?昨晚,科学作家万维钢与图灵联合创始人刘江老师在图灵社区直播间进行了一场深入的对话探讨,这是我们系列直播的第二场,围观人数超过30000!没来得及看的小伙伴可以去图灵社区视频号观看回放&#xff…

CiteSpace多数据库一键去重-知网、万方、维普数据库

看完本文你将学会利用CiteSpace、Ucinet、Vosviewer、gephi等文献计量与可视化软件同时处理知网、万方、维普数据库,结果更加客观、科学、权威! ​ 目前,我们利用可视化软件,诸如CiteSpace、Ucinet、Vosviewer、gephi、pajek等处理…

广告投放黑科技Cloak

广告投放黑科技:什么是Cloak,Cloak的原理是什么? 一、Cloak/Cloaking是什么意思? 很多人一定对Cloak/Cloaking这个英文单词产生疑问,或者很多人是第一次听这个词,究竟这个词是什么意思?其实&a…

英文SEO站群操作模式介绍

英文站群,是指一个人批量做了很多站,统一操作一批网站,这个就叫站群。 站群是非常好的英文SEO引流手段,一但英文站群打造完毕,你就能获得持续稳定的流量。 很多人通过英文SEO站群,仅仅是做联盟广告&#xf…

外贸独立站谷歌SEO做外链常见的100个问题总结

外贸独立站谷歌SEO做外链常见的100个问题总结 For the next 21 days,you can explore Freshsales for free.Here are a few steps to get you started Import your data or migrate from another CRM 2-way email sync for a seamless communicationFor the next 21 days,you …

采用预训练模型来训练新的模型

一、为什么需要使用预训练模型? 当可用的数据集较少时,我们从头开始训练的自己的卷积神经网络,想要将模型的精度会十分困难,如果我们想要进一步提高精度,因此下一步我们需要使用预训练的模型。 想要将深度学习应用于…

【国际知名-hacker`动态`】洞悉-最新 hacker技术 新闻

国际知名-黑客动态 1、【导读】黑客 最新 技术&新闻 平台 2、【动态】每日必看的朋友圈 3、【多看看】跳出舒适圈,你要学的还有很多 ​ The Hacker News 报道黑客攻击、网络安全、科技新闻(内容深入浅出>提供及时、可靠的信息) 链接&#xff1a…

PoseiSwap 参赛,参与斯坦福、Nautilus等联合主办的 Hackathon 活动

近日,由 Stanford Blockchain Accelerator、Zebec Protocol、 Nautilus Chain、Rootz Lab 共同主办的“ Boundless Hackathon Stanford ” 主题的黑客松活动,目前已接受报名。该活动旨在帮助更多的优质开发者参与到 Web3 世界的发展中,推动链…

StartDT奇点云邀您参加2022云栖大会,11月3-5日杭州见

亚洲顶级的数字科技盛会 在这个金秋如约而至 今年,全新升级的StartDT (奇点云、GrowingIO) 将再再再度回归云栖大会 从2009到2022 云栖大会见证了中国互联网十四载风云变幻 今年,1000数字科技领军者 数万名科技从业者和爱好…

奇点云DataSimba发版全解析:“企业级”版本升级,提供最佳组合

近日,奇点云发布数据云产品商业化版本的全新升级:DataSimba(数据云平台)提供极速版、专业版、旗舰版、红旗版,可靠性、可用性、可服务性再进阶,四大版本满足不同企业选择。 「乐高式DIY」or「最佳组合」&am…