ConvNext:A ConvNet for the 2020s
ConvNext:2020 年代的卷积神经网络
论文地址: https://arxiv.org/pdf/2201.03545
自从Transformer成功应用在视觉领域并且取得显著成绩后,很多人开始抛弃卷积网络架构,转而使用Transformer。然而有的大佬不认为卷积过时了,于是有了这篇论文,本文并没有提出创新的技术,而是集百家之所长,将CV领域中的各种技巧融会贯通,使用纯卷积搭建类似于Transofmer的网络结构,以此证明了“我和你长得类似,我纯卷积效果也不输你自注意力”;最终得到了卷积神经网络的巅峰之作——ConvNext。经过个人实践后,效果确实强,的确不输SwinTransformer,也超过了绝大部分的卷积网络(我没有把所有卷积网络都对比)。
1、前言
2020年Vision Transformer横空出世,直接在计算机视觉大杀四方,传统卷积网络在计算机视觉领域的地位受到了挑战。于是作者在2020年重新探索了纯粹基于卷积的网络设计的潜力,证明了卷积神经网络还能再战!
视觉识别的“咆哮的 20 年代”始于视觉Transformer (ViT) 的引入,它迅速取代了卷积网络,成为最先进的图像分类模型。
另一方面,普通的 ViT 在应用于一般计算机视觉任务(例如对象检测和语义分割)时面临困难。Swin Transformers重新引入了几个卷积架构,使得 Transformers 成为了通用视觉主干,并在各种视觉任务上展示了卓越的性能。然而,在 Transformer 中引入卷积架构,其有效性仍然在很大程度上归功于 Transformer 的内在优越性,而不是卷积固有的归纳偏差。
在这项工作中,作者重新审视设计空间并测试纯卷积网络能实现的极限。作者对标准的ResNet架构进行了一系列的“现代化”改进,逐步将其改造为类似于 ViT 的设计,但完全基于标准的ConvNet模块,并发现了几个导致性能差异的关键组件。作者将这一探索的结果称为“基于纯卷积网络的模型”——ConvNeXt。ConvNeXts 完全由标准 ConvNet 模块构建而成,在准确性和可扩展性方面能与 Transformers 竞争,实现了 87.8% 的 ImageNet top-1 准确性,并在 COCO 检测和 ADE20K 分割方面优于 Swin Transformers,同时保持了标准 ConvNets 的简单性和效率。
1.1、ConvNets和视觉Transformer在ImageNet-1K上的分类结果
图中的每个气泡代表一个模型变体,气泡的面积与该模型变体的浮点运算次数(FLOPs)成正比。FLOPs是衡量模型在处理单个输入时所需计算量的指标,通常用来评估模型的计算复杂度。图中展示了不同尺寸的模型,包括ImageNet-1K和ImageNet-22K模型。ImageNet-1K/22K模型分别处理224x224和384x384像素的图像。ImageNet-22K是ImageNet-1K的一个扩展,包含更多的类别和图像。ResNet和ViT结果是在原始论文的基础上通过改进的训练技巧得到的。作者证明了一个标准的ConvNet模型可以达到与SwinT相同的可扩展性水平,同时在设计上要简单得多。
1.2、卷积神经网络在计算机视觉领域的统治地位并非巧合
在许多应用场景中,“滑动窗口”策略是视觉处理的内在特征,特别是在处理高分辨率图像时。卷积神经网络有几个内置的归纳偏置,使它们非常适合各种各样的计算机视觉应用。其中最重要的一个归纳偏置是平移等变性(translation equivariance),它指的是网络对于输入图像中目标位置的变化保持一定的鲁棒性。具体来说,平移等变性意味着如果输入图像发生平移(即图像中的所有内容按照某个方向移动一定的距离),卷积层输出的特征映射也会以相同的方式平移。这种特性使得卷积神经网络能够更好地检测和识别图像中的位置变化的物体。 ConvNets 在采用滑动窗口方式时,由于计算是共享的,因此具有固有的高效性。这意味着网络在处理图像的每个局部区域时,可以重复利用之前的计算结果,从而减少了总体的计算量。
1.3、Transformer的发展
大约在同一时间,自然语言处理 (NLP) 的神经网络设计走了一条截然不同的道路,Transformers 取代了循环神经网络RNN,成为占主导地位的骨干架构。 尽管语言和视觉领域之间的兴趣任务存在差异,但随着视觉Transformer(ViT)的引入彻底改变了网络架构设计的格局,这两个流在 2020 年令人惊讶地融合。除了最初的“patch”层(将图像分割成一系列补丁)外,ViT 没有引入特定于图像的归纳偏差,并对原始的 Transformer 进行了最小的更改。
ViT 的一个主要关注点是扩展行为:借助更大的模型和更大的数据集,Transformers 的性能可以显著优于标准 ResNet。ViT 在图像分类任务的结果令人鼓舞,但计算机视觉并不局限于图像分类;如果没有 ConvNet 归纳偏差,普通的 ViT 模型想要成为通用视觉主干面临许多挑战,其中最大的挑战是 ViT 在整张输入的图像上计算自注意力,其计算复杂度会随着输入图片大小呈二次方增长,这是非常庞大的计算量。这对于 ImageNet 分类来说可能是可以接受的,但对于更高分辨率的输入就会变得棘手。
层级式Transformer 采用“滑动窗口”策略(在局部窗口内计算注意力),这使得 Transformer 的行为与 ConvNet 更加相似。Swin Transformer 首次证明 Transformer 可以作为