谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

2021-05-06 15:50:28

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

作者 | 耳洞打三金、琰琰

近日,谷歌大脑团队新出了一篇论文,题目为《MLP-Mixer: An all-MLP Architecture for Vision 》,这篇论文是原视觉Transformer(ViT)团队的一个纯MLP架构的尝试。

本文总结来说就是提出了一种仅仅需要多层感知机的框架——MLP-Mixer,无需卷积模块、注意力机制,即可达到与CNN、Transformer相媲美的图像分类性能。

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

下面是论文和链接:

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

论文链接:
https://arxiv.org/pdf/2105.01601.pdf

近一年来,Transformer可真是太火了,把Transformer用在视觉领域真是屡试不爽,先是分类后是检测,等等等等,每次都是吊打ResNet,对CV任务“降维打击”,说句实话,每次Transformer在CV领域新的论文出来,别说是对AI从业者,哪怕是对刚刚小学毕业的三金我,对神经来说都是一种挑战:这咋又双叒叕超越了?

众所周知,CV领域主流架构的演变过程是 MLP->CNN->Transformer 。

难道现在要变成 MLP->CNN->Transformer->MLP ?

都说时尚是个圈,没想到你学术圈真的有一天也变成了学术“圈”。

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

那就先来看一下MLP-Mixer这个新框架吧,它不使用卷积或自注意力机制。相反,Mixer体系架构完全基于在空间位置或特征通道上重复应用的多层感知器(MLP),它只依赖基础的矩阵乘法操作、数据排布变换(比如reshape、transposition)以及非线性层。

下图展示了MLP-Mixer的整体结构:

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

首先,它的输入是一系列图像块的线性投影(其形状为patches x channels),其次,Mixer使用两种类型的MLP层:

1、通道混合MLP(channel-mixing MLPs ):用于不同通道之间进行通信,允许对每个token独立操作,即采用每一行作为输入。

2、token混合MLP(The token-mixing MLPs ):用于不同空间位置(token)之间的通信;允许在每个通道上独立操作,即采用每一列作为输入。

以上两种类型的MLP层交替执行以实现两个输入维度的交互。

在极端情况下,MLP-Mixer架构可以看作一个特殊的CNN,它使用1×1通道混合的卷积,全感受域的单通道深度卷积以及token混合的参数共享。典型的CNN不是混合器的特例,卷积也比MLPs中的普通矩阵乘法更复杂(它需要额外的成本来减少矩阵乘法或专门实现)不过,尽管它很简单,MLP-Mixer还是取得了很不错的结果。

当对大型数据集进行预训练时(大约100万张图片),它达到了之前CNNs和Transformers在ImageNet上的最佳性能:87.94%的 top-1 验证准确率。当对1-10万张图片大小的数据集进行预训练时,结合现代正则化技术( regularization techniques),Mixer同样取得了强大的性能。

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

1 Mixer 混合器架构

一般来讲,当今深度视觉体系结构采用三种方式进行特征混合:

(i)在给定的空间位置;

(ii)不同的空间位置之间;

(iii)将上述两种方式组合。

在CNNs中,(ii)是采用N× N进行卷积和池化,其中N>1;(i)采用1×1卷积;较大的核则同时执行(i)和(ii)。通常更深层次的神经元有更大的感受野。

在Transformer和其他注意力架构中,自注意力层允许同时执行(i)和(ii),而MLP只执行(i)。Mixer架构背后的思想是:通过MLP实现每个通道混合操作(i)和 token混合操作(ii)的显著分离。

在上图体系架构中,Mixer将序列长度为S的非重叠的图像块作为输入,每个图像块都投影到所需的隐层维度C,并产生一个二维实值输入X∈ RS×C。如果原始图像的分辨率为(H x W),每个图像块的分辨率为(P x P),那么图像块的数量则为S=HW/P2。所有的块都采用相同的投影矩阵进行线性投影。

Mixer由等尺寸的多层组成,每层有两个MLP块。第一个是token mixing MLP块:它作用于X的列,从RS映射到R S,可在所有列中共享。第二个是Channel-mixing MLP块:它作用于X的行,从Rc映射到 R C,可在所有行中共享。每个MLP块包含两个全连接层和一个独立于输入的非线性层。其基本方程如下:

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

图中,Ds Dc分别代表token-mixing与channel-mixing MLP中隐层宽度。由于Ds的选择独立于输入图像块的数量,因此,网络的计算复杂度与输入块的数量成线性关系;此外,Dc独立于块尺寸,整体计算量与图像的像素数成线性关系,这类似于CNN。

如上文所说,相同的通道混合MLP(或令牌混合MLP)应用于X的每一行和列,在每一层内绑定通道混合MLP的参数都是一种自然选择,它提供了位置不变性,这是卷积的一个显著特征。

不过,跨通道绑定参数的情况在CNN中并不常见。例如CNN中可分离卷积,将不同的卷积核独立应用于每个通道。而Mixer中的token 混合MLP可以对所有通道共享相同的核(即获得完全感受野)。通常来讲,当增加隐层维数C或序列长度S时,这种参数绑定可以避免体系架构增长过快,并且节省内存。令人没想到的是,这种绑定机制并没有影响性能。

Mixer中的每个层(除了初始块投影层)接收相同大小的输入。这种“各向同性”设计最类似于使用固定宽度的Transformer和RNN。这与大多数CNN不同,CNN具有金字塔结构:越深的层具有更低的分辨率,更多的通道。需要注意的是,以上是典型的设计,除此之外也存在其他组合,例如各向同性网状结构和金字塔状VIT。除了MLP层之外,Mixer还使用了其他标准的体系结构组件:Skip 连接和层规范化。

此外,与ViTs不同,Mixer不使用位置嵌入,因为token混合mlp对输入token的顺序敏感,因此可以学习表示位置。最后,Mixer使用一个标准的分类head和一个线性分类器。

2 更多实验结果和代码

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

下图是原论文附带的代码,很简单,只有43行。

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

3 网友评价

知乎网友@小小将 表示:

FC is all you need, neither Conv nor Attention.

在数据和资源足够的情况下,或许inductive bias的模型反而成了束缚,还不如最simple的模型来的直接。

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

知乎网友@小赖sqLai 表示:

说白了就是patch内和patch间依次进行信息交换和整合,相比transformer其实缺了个动态的结构,也就是内容不可感知,有点过拟合的意思在里面。主观感觉,如果再补个patch内的attention和patch间的attention进去,差不多就能接近transformer了。

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

知乎网友@TniL 表示:

观察到两个趋势,不敢说是好还是坏:

1、以前的工作都努力在通用模型里加归纳偏置,用来减少参数优化需要的资源(数据、计算资源);近期的(一批)工作在反其道行之,逐渐去先验化,让这部分bias通过大量数据学习出来。

2、以前的模型都讲究兼容变长数据,CNN、RNN、Xformer都有处理变长数据的能力,这使得它们非常通用,现在的一些模型(包括问题讨论的这篇)都assume输入的大小是固定的,直观上看不能算太通用的框架(所以不敢苟同MLP is all you need这种观点)。

知乎网友@mathfinder对原文方法的总结:

总体而言相对遗憾,没有超过SOTA,仅仅是可比较。从实验结果来看跟ViT相比还是全面落后,但还是给人一些启发的,毕竟结构极致简单。

本文核心是设计了非常小巧的Mixer-Layer,通过MLP来交互每个patches的信息。实际上,经过一次mixer-layer,每个patch就能拿到全图的信息。

知乎网友@Rooftrellen表示:

感觉有点标题党,照这么说CNN也是MLP了,MLP本来就是现在大部分架构的building block,区别只是这些子MLP如何连接,如何共享权重等等。

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

知乎网友@大白杨表示:

谷歌还是不会取名字,要换成国内组的话,直接一个"MLP is All You Need"或者"Make MLP Great Again"。

谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

三金我觉得倒是觉得发论文可以再大胆一些:

《震惊!无需卷积、注意力、MLP、神经网络,甚至无需计算机,只用人眼就能达到图像识别/检测/分割的SOTA水平》谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

最后,对于这篇论文和MLP的回归,您怎么看?

参考链接:

https://www.zhihu.com/question/457926000

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66868.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

抖音快速涨粉之抖音用户数据分析

抖音是一款专注于新生代的音乐创意短视频App,提供给年轻人群。截至2020年10月,抖音国内日活跃用户数突破2亿,国内月活跃用户数突破6亿。足迹遍布全世界233个国家和地区,已然成为短视频行业的巨头,行业内有南抖音北快手…

竞品分析—抖音PK快手

1、交互设计方面:进入抖音时,便直接观看视频,抖音通过“向上滑”动作完成视频切换,操作十分流畅,将用户的观赏体验放大到极致。反观快手则通过封面页组成的瀑布流,用户通过浏览找到自己感兴趣的视频进入&am…

怎么让抖音快速涨粉之抖音数据分析

怎么让抖音快速涨粉之抖音数据分析 2020年年初的疫情,让大量门店商家意识到,一味注重发展线下生意,遇到突发事件时抗风险能力将会很差,所以在疫情缓和后,有不少企业都开始注意发展线上的经营渠道,如抖音、快…

抖音用户数据获取分析(未完成)

基于大牛的研究成果(https://blog.csdn.net/wql2014302721/article/details/110563695),使用Fiddler在安卓9手机上抓包,添加用户证书,抓不到包,将手机ROOT后,添加系统“信任的凭据”&#xff0c…

抖音短视频APP——市场需求文档

本文站在抖音初创期的角度,去尝试写的一份MRD(市场需求文档),主要内容包括:市场概述、用户分析、竞品分析(抖音VS快手)、需求描述。本文是个人在入门产品经理阶段,思考并撰写的一份不…

分享个短视频竞品分析报告

作者:carmanzzz (转载已取得作者授权) 产品体验环境:Android 9 产品版本: 版本信息 1. 报告目的及主要内容 1.1 报告目的 为了使报告内容更为聚焦,撰写任何报告前都应该首先明确报告的研究目的,…

抖音商品机会潜力分析报告竞赛-3等奖作品分析

文章目录 数据集介绍需要1以及结论需求2以及结论推荐开发商品A:鹊牌 三合一爆米花球形焦糖味奶香味100g玉米50g糖 50克油 包邮推荐开发商品B:【云南松茸菌汤包】熬汤必备 正宗云南产地货 60g/袋 包邮推荐开发商品C:推荐_【三只松鼠_巨型零食大…

趣头条基于ClickHouse玩转每天1000亿数据量

本文根据dbaplus社群第199期线上分享整理而成! 王海胜 趣头条数据中心大数据开发工程师 8年互联网工作经验,曾在eBay、唯品会、趣头条等公司从事大数据开发相关工作,有丰富的大数据落地经验。 业务背景 随着公司规模越来越大,业务线越来越多&…

这是一份数据量达41.7万开源表格数据集

点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」7折优惠最后1天,请扫码咨询 ↑↑↑ 本文转载自微软研究院AI头条(ID:MSRAsia) 近年来,自然语言处理(NLP,Natural Language Processing)技术…

微信海量数据查询如何从1000ms降到100ms?

👉腾小云导读 微信的多维指标监控平台,具备自定义维度、指标的监控能力,主要服务于用户自定义监控。作为框架级监控的补充,它承载着聚合前 45亿/min、4万亿/天的数据量。当前,针对数据层的查询请求也达到了峰值 40万/m…

如何处理百亿级别的数据信息

导读:本次分享将从以下几个方面进行分享,首先讲一下我们目前所做的工作,目前平台架构是怎么样的,第二个是大量日志情况下如何收集,第三个涉及百亿数据后如何快速存储以及快速查询,第四个讲一下数据存储后如…

数据总量 40 亿+,报表分析数据 10 亿+,TiDB 在中通的落地与进化

作者:luzizhuo 原文来源: https://tidb.net/blog/3da1aed9 本文根据中通快递数据智能部基础架构负责人朱友志在【PingCAP DevCon 2021】上的演讲整理而成。 视频回顾: https://www.bilibili.com/video/BV1f3411678v 讲义下载&#…

海量数据处理:在100亿个数中找出top 10000

经典的TOP K问题,借助堆排序进行 前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小堆比较好…

数据特征分析

数据特征分析主要包括分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析几种分析。 分布分析 分布分析的最终成果是形成能体现数据的图表 分布分析主要有两种类型:对定量数据的分布分析和对定性数据的分布分析 对定量数据的分布分析 要形成一个图表的话…

国货之光,处女座的福音!最详细华强北洛达1562M悦虎版二代蓝牙耳机评测

2016年,随着苹果发布初代AirPods,原来一直不愠不火的蓝牙耳机市场一时大热,“真无线蓝牙耳机”(简称TWS,True Wireless Stereo)开始走进人们的视野。随着各大手机厂商(奸商)取消手机上的3.5mm耳机插口,真无线蓝牙耳机加速普及,直至今天变成人们手中不可或缺的电子产品…

DayDayUp:计算机技术与软件专业技术资格证书之《系统集成项目管理工程师》软考考试简介及其知识点架构总结、课程讲解目录(立项-整体-范围-进度-成本-质量-人力资源-沟通-干系人-风险-采购等)

DayDayUp:计算机技术与软件专业技术资格证书之《系统集成项目管理工程师》软考考试简介及其知识点架构总结、课程讲解目录(立项-整体-范围-进度-成本-质量-人力资源-沟通-干系人-风险-采购等) 目录 术语简称简介 计算机软件资格考试【软考】的简介及其知识点架构总…

DL之RNN:基于RNN实现模仿贴吧留言

DL之RNN:基于RNN实现模仿贴吧留言 目录 输出结果 代码设计 输出结果 更新…… 代码设计 注:CPU上跑的较慢,建议GPU运行代码

CSDN:2020年度CSDN博客之星评选竞赛——180号【一个处女座的程序猿】,感谢您,投上的宝贵一票,感谢!感恩!

CSDN:2020年度CSDN博客之星评选竞赛——180号【一个处女座的程序猿】,感谢您,投上的宝贵一票,感谢!感恩! 导读:新的一年,改革春风吹满地,新的一年要争气! 博…

使用BottomNavigationView底部导航栏、添加数量角标提醒

度娘了一圈发现基本上都是TabLayout或者其他的导航栏添加角标,所以写这篇博客记录下来。 先来看下实现的效果图: 代码也是很简单的 BottomNavigationMenuView中的每一个Tab就是一个FrameLayout,所以我们可以在上面随意添加View、这样也就可以…

CSDN:2019年度CSDN博客之星评选竞赛——105号【一个处女座的程序猿】,感谢您,投上的宝贵一票,感谢!感恩!

CSDN:2019年度CSDN博客之星评选竞赛——105号【一个处女座的程序猿】,感谢您,投上的宝贵一票,感谢!感恩! 导读:新的一年,改革春风吹满地,新的一年要争气! 博…