论文阅读:A ConvNet for the 2020s

Abstract

SWIN Transformer重新引入了几个ConvNet priors,使得Transformer实际上可以作为通用的视觉主干,并在各种视觉任务上表现出卓越的性能。 然而,这种混合方法的有效性仍然很大程度上归功于变压器的内在优势,而不是卷积的内在归纳偏差。 在这项工作中,我们重新审视了设计空间,并测试了纯ConvNet所能达到的极限。 我们逐渐将一个标准的Resnet“现代化”到vision Transformer的设计中,并发现了几个导致性能差异的关键部件。 

Introduction

        回顾卷积网络的历史

        卷积的运算方式适合进行处理视觉任务

        Transformer异军突起并进军视觉领域,但是单一的ViT处理图像任务中存在问题(复杂度高)

        分层Transformer采用一种混合方法来弥补这一差距。 例如,“滑动窗口”策略被重新引入Transformer,使它们的行为更类似于ConvNets。SWIN Transformer的成功和迅速采用也揭示了一件事:卷积的本质并不是变得无关紧要

        这种观点下,许多用于计算机视觉的Transformer的进步都旨在带回卷积。 然而,这些尝试是有代价的:滑动窗口自关注的幼稚实现可能是昂贵的[55]; 使用先进的方法,如循环移位[45],速度可以优化,但系统在设计上变得更加复杂。 另一方面,几乎具有讽刺意味的是,一个ConvNet已经满足了许多想要的属性,尽管是以一种直接、不加修饰的方式。 ConvNets似乎失去动力的唯一原因是(分层)Transformer在许多视觉任务中超过了它们,性能差异通常归因于变压器优越的缩放行为,多头自注意是关键组成部分

        ConvNets和SWIN Transformer既有区别又有相似之处:它们都具有相似的感应偏差,但在训练过程和宏/微观层次的体系结构设计上存在显著差异。

        我们首先使用经过改进的过程训练的标准Resnet(例如Resnet50)。 我们逐渐将架构“现代化”到构建一个层次化的视觉Transformer(例如SWIN-T)。 我们的探索是由一个关键问题指导的:Transformer的设计决策如何影响ConvNets的性能? 我们发现了几个导致性能差异的关键组件。 因此,我们提出了一个纯ConvNets族,称为ConvNext。

Modernizing a ConvNet: a Roadmap

        在本节中,我们提供了一个从ResNet到ConvNet的轨迹,它类似于Transformer。 我们考虑了两种模型尺寸,一种是Resnet-50/SWIN-T模型,其Flop值约为4.5×109;另一种是Resnet-200/SWIN-B模型,其Flop值约为15.0×109。 为了简单起见,我们将用RESNET-50/SWIN-T复杂度模型给出结果。 对于高容量模型的结论是一致的,结果可以在附录C中找到。

        在高层次上,我们的探索是为了研究和遵循SWIN-Transformer的不同层次的设计,同时保持网络作为标准ConvNet的简单性。 我们探索的路线图如下。 我们的起点是Resnet-50型号。 我们首先用类似于训练视觉Transformer​​​​​​​的训练技术来训练它,并获得了比最初的Resnet-50更好的结果。 这将是我们的基线。 然后,我们研究了一系列的设计决策,我们总结为:1)宏观设计,2)重新设计,3)反瓶颈,4)大内核大小,5)不同层次的微观设计。 在图2中,我们展示了“网络现代化”的每一步所能实现的过程和结果。 由于网络复杂度与最终性能密切相关,所以在探索的过程中,FLOP大致被控制,尽管在中间阶段,FLOP可能高于或低于参考模型。 所有模型都在ImageNet-1K上进行训练和评估。 

Training Techniques       

        首先不对ResNet网络结构本身进行改进,只对训练的策略进行一个改进:

1. 从90epochs到300epochs

2. 使用AdamW进行优化

3. 使用了Mixup,Cutmix,RandAugment,RandomErasing等数据增强策略

        由结果得到,通过这些操作,就可以将性能从76.1%增加到了78.8%。

        这意味着传统的Convnets和视觉变换器之间的性能差异的很大一部分可能是由于训练技术。

改进措施        

 

框架

 

Related Work

Conclusions

        在21世纪20年代,vision Transformer,尤其是像SWIN Transformer,开始取代ConvNets,成为通用视觉骨干的首选。 人们普遍认为,vision Transformer比ConvNets更准确、更有效、更可扩展。 我们提出了ConvNexts,这是一个纯ConvNet模型,可以在多种计算机视觉基准上与最先进的分层视觉变换器竞争,同时保留了标准ConvNets的简单性和效率。 在某些方面,我们的观察令人惊讶,而我们的ConvNext模型本身并不完全是新的--在过去的十年里,许多设计选择都被单独检查过,但不是集体检查。 我们希望这项研究报告的新结果将挑战几个广泛持有的观点,并促使人们重新思考卷积在计算机视觉中的重要性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/61600.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

年度汇总!一文了解2021 IEEE Transaction Winner奖19篇论文

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 哈喽艾瑞巴蒂,年关将近,又到了总结过去一年学术成果的时候了。 今天,我们整理了2021 IEEE Transaction 最佳论文合集!为大家的文献库添砖加瓦,注入科研…

OpenChatPaper | 你值得拥有的论文阅读小助手!~(粉丝投稿)

1写在前面 最近开始天气转暖了,不知道大家那里的树有没有绿,花有没有开。😝 旅游的人越来越多了,多到早上去吃个馄饨都要排队了,不过总得来说一个城市还是要有人间烟火气啊。🥲 之前给大家推荐了chatPDF来帮…

论文速读系列一:VoteNet、CBGS、BirdNet、StarNet、STD

如有错误,恳请指出。 参考网上资料,对一些经典论文进行快速思路整理 文章目录 1. VoteNet2. CBGS3. BirdNet4. StarNet5. STD 参考网上资料,对一些经典论文进行快速思路整理 1. VoteNet paper:《Deep Hough Voting for 3D Objec…

论文学习记录——iTPN(2023年CVPR)

论文题目:Integrally Pre-Trained TransformerPyramid Networks 论文地址:https://arxiv.org/pdf/2211.12735.pdf 代码地址:https://github.com/sunsmarterjie/iTPN 一.Introduction 近年来视觉识别领域两个比较重要的成果是:1.用…

记录学习GNU/Linux(1)

目录 1. 【林纳斯托瓦兹】简介 2. 什么是GNU/Linux? 2.1 GNU计划 2.2 GNU/Linux 3. Linux内核版本与发行版本 4. MBR(MS-DOS)主引导记录 5. 计算机系统启动流程 6. 图形界面与命令行模式切换 7. 切换用户 7.1 方式一 7.2 方式二 8. 查看当前目录文件信息…

一、深度学习的基本介绍

机器学习的基本步骤: 前馈运算、反向传播计算梯度、根据梯度更新参数值。 一、定义及基本概念 深度学习,就是一种利用深度人工神经网络来进行自动分类、预测和学习的技术。它可以从海量的数据中自动学习,找寻数据中的特征。所以说&#xff0c…

安卓系统主板链接USB声卡,卡号配置和授权说明

工作中,我们可能会经常遇到不同的声卡主板和系统主板,尤其是在chatGPT 当下正热门的情况下,开发测试语音功能,少不了要用到不同的主板和USB声卡。下面以3399和讯飞声卡配置简单说明下配置方法和步骤: 1、准备工作&…

chatgpt赋能python:如何用Python实现Uno主板烧录

如何用Python实现Uno主板烧录 简介 Arduino Uno是一款基于Atmel AVR处理器的单板微控制器,常用于制作物联网设备、机器人和互动艺术等项目中。在开发过程中,需要将程序烧录到Uno主板上,这样才能让主板运行我们设计的程序。本文将介绍如何使…

为什么 C# 可能是最好的第一编程语言

纵观神州大地,漫游中华互联网,我看到很多人关注为什么你应该开始学习JavaScript做前端,而对blazor这样的面向未来的框架有种莫名的瞧不起,或者为什么你应该学习Python作为你的第一门编程语言,恕不知有多少公司业务是用…

微软CEO纳德拉:AI是人类大脑的加速器

微软CEO纳德拉:AI是人类大脑的加速器! 微软首席执行官(CEO)萨提亚纳德拉日前驳斥了特斯拉创始人埃隆马斯克有关微软控制OpenAI的说法。在接受CNBC采访时,纳德拉表示,马斯克的说法“实际上是不正确的”。他强…

冠达管理:A股大涨后缩量蓄势整固 房地产产业链持续活跃

周三,A股在周二大涨后蓄势整固,三大指数均小幅跌落。昨日商场调整压力主要来自以CPO为代表的AI主线回调;周二领涨的地产股连续强势,基建、城镇化概念股走势活跃;另一领涨主线券商股则略微回落。此外,化工化…

亲戚3.5W入职华为后,我也选择了转行……

我是汽修专业,大学毕业后做了汽车销售,后又转到房产销售,有苦又累,还被冷嘲热讽 …… 学科 | Python大数据开发 校区 | 郑州校区 故事的背景 大家好,我就是故事的男主角。我是对口升学大专生,学习了四年…

水羊转债,超达转债,晓鸣转债上市价格预测

水羊转债 基本信息 转债名称:水羊转债,评级:A,发行规模:6.94987亿元。 正股名称:水羊股份,今日收盘价:13.94元,转股价格:13.71元。 当前转股价值 转债面值 /…

用AkShare获取实盘沪深可转债数据

可转债(英文翻译:convertible bond、convertible debenture或convertible note)。指公司发行的含有转换特征的债券。在招募说明中发行人承诺根据转换价格在一定时间内可将债券转换为公司普通股。转换特征为公司所发行债券的一项义务。可转换债…

【可转债,股票】低频量化之 可转债 配债价格表

目录 待发配债-5批文通过待发配债-4发哥通过待发配债-3交易所受理待发配债-2股东大会通过待发配债-1董事会预案最后 待发配债-5批文通过 代码名称张数股数成本688268华特气体*#0.620015128.0688268华特气体*#1.630022692.0688268华特气体*#2.648736836.7688268华特气体*#3.6674…

会通转债,大元转债上市价格预测

会通转债 基本信息 转债名称:会通转债,评级:AA-,发行规模:8.3亿元。 正股名称:会通股份,今日收盘价:8.61,转股价格:9.33。 当前转股价值 转债面值 / 转股价格…

通达信接口下如何获取可转债品种。

在通达信接口下运行量化策略需要建立自己的标的池,从符合条件的池子里进行筛选出可执行策略的具体标的。 下面简单和大家说一下如何获取关于可转债的数据。 以下是查询可转债的参数组:可以根据各项指标去获取来建立自己的池子,例如财务报表&a…

熊猫头动画人物表情、场景图片、物品抠图等等动画素材总共60GB

正文: 沙雕动画目前非常的火爆,有很多的博主都在用这些相关的资源, 如果你也有过这样的想法,那么好巧。 我知道你缺素材! 分享一波自己在某宝花Q的沙雕动画素材及教程,包含了CTA、PS、AI、Flash等相关文件素材&a…

宝塔面板+轻松部署一款二次元的Web多人在线网络聊天系统fiora聊天室

前言 Fiora是一款偏二次元的Web多人在线聊天应用,是使用Node.js、Mongodb、Socket.io和React编写的,使用起来简洁、方便,在这里使用宝塔面板Fiora安装教程分享给大家。 对于不懂各种程序,不通各类代码新手来说,用宝塔来…

a洋发卡网sadnt模板美化

介绍: 优化了手机模板商品图片以及一些花里胡哨的构造 源码直接替换sadnt模板里面的index.php就行.建议先备份! 网盘下载地址: http://kekewangLuo.net/p4YJHDSfrVc0 图片: