圆形的CNN卷积核?华中科大清华黄高团队康奈尔提出圆形卷积,进一步提升卷积结构性能!

作者丨小马
编辑丨极市平台

写在前面

目前正常卷积的感受野大多都是一个矩形的,因为矩形更有利于储存和计算数据的方便。但是,人类视觉系统的感受野更像是一个圆形的。因此,作者就提出,能不能将CNN卷积核的感受野也变成圆形呢?作者通过一系列实验,发现了圆形的卷积核确实比方形的卷积效果会更好。基于此,作者在本文中提出了一种卷积核大小可变的并且聚合了方形和圆形特点的集成卷积核。作者在模型训练结束后,采用了一种重参数的方法对模型的结构和参数进行修改,使得模型在inference的时候并没有引入额外的参数量和计算量。最终作者在分类任务的三个数据集ImageNet、CIFAR-10、CIFAR-100上进行了测试,发现了新的卷积核能够有比较大的性能提升(在MobileNetV3-Small上提高了5.20%的top-1准确率,在MobileNetV3-Large上提高了2.16%的top-1准确率)。

刚刚搜索了一下人的视野范围是什么形状的。发现其实人眼的感受野也不是圆形的,而是一个椭圆形的。类似下面的这样:

(图片来自学习强国app慕课中的“高维看世界”)

好奇之后会不会有工作进行了提出一个椭圆形的卷积核。除此之外,人眼的感知除了“上下左右”,还有“前后”。之后会不会有人提出一个带深度的卷积核(比如椭球形状的卷积核)。目前的卷积在通道维度上都是进行非常充分的建模,导致在通道维度上的建模很多时候是冗余的(这一点Involution[1]中也有提到),所以说不定用一个带“深度”信息的卷积核,只对相邻通道信息进行建模,反而能够提升模型的泛化能力。

1. 论文和代码地址

Integrating Circle Kernels into Convolutional Neural Networks

论文地址:https://arxiv.org/abs/2107.02451

代码地址:未开源

2. Motivation

从LeNet开始,矩形的卷积核一直都是CNN的标配。在这期间也有一些工作研究了可变形的卷积,但是,虽然可变形的卷积能够提高模型的performance,但是不可避免的引入了额外的参数和计算量。

因此,受人眼视觉系统感受野的启发,作者就想能不能提出一个圆形的卷积操作,相比于矩形的卷积,圆形的卷积核主要有以下几个优点:

1) 圆形卷积核的感受野和生物视觉的感受野更加相似;

2) 卷积核的感受野通常应该是各个方向都是对称的,这样可以适应全局或者局部输入特征在不同方向上的信息变化,圆形卷积核具备这个性质,但是矩形卷积核只在固定的几个方向是对称的;

3)之前也有工作表明,矩形卷积核的有效感受野更加接近圆形的高斯分布,因此,为什么不直接用一个圆形的卷积核呢?

在构造圆形卷积核时,由于感受野上的一些点通常不在网格上,因此作者采用双线性插值进行逼近,并提取了相应的变换矩阵。

最终,作者并没有采用了单独的圆形卷积,而是采用一种圆形和方形集成的卷积,并在训练过程中采用自适应的卷积核大小(也就是说,每个集成的卷积核都有一对方核和圆核。这两个核共享权值矩阵,但有不同的变换矩阵 )。

最终作者在分类任务的三个数据集ImageNet,CIFAR-10,CIFAR-100上做了实验,在不同baseline结构上,方形和圆形集成的卷积核相比于baseline都有明显的性能提升。

3. 方法

3.1. 圆形卷积核 VS 方形卷积核

圆形卷积核(b)和方形卷积核(a)如上图所示

对于一个3x3的方形卷积,可以用下面的公式表示(对感受野内的特征进行加权求和):

对于半径为1的圆形卷积,可以被建模成下面的公式:

由于圆核的接受场包含不是整数的位置,所以作者使用了双线性插值获取相应的采样值:

因此,将上面的两个公式进行结合,我们就可以得到下面统一的圆形卷积核的公式:

(注意,这里的圆形的卷积核的公式看上去比较复杂,但其实由于乘法的结合律,这里的矩阵 W W W B B B其实是可以合成一个新的矩阵的,所以在测试的时候其实并不会引入新的计算量和参数量)

(另外,再通俗的解释一下,这里的圆形卷积计算其实方形卷积计算是一样的,都是对感受野内特征信息进行加权求和;不同的是,方形的卷积核的特征信息都可以轻松的获得,但是圆形感受野内的信息由于位置往往不是整数,所以需要用双线性插值的方法,计算相应位置的特征值)

3.2. 集成圆形卷积核和方形卷积核

在本文中,作者并没有单独的使用圆形或者方形的卷积,而是对这两个卷积进行了集成。

每个集成的卷积核都有两种感受野(圆形和方形)。训练时,每层的所有卷积核都随机选择的圆形或者方形的卷积核进行训练。所以,一个集成核的感受野是一个伯努利随机变量 E ∼ B e r ( S , R ; 0.5 ) E ∼ Ber(S, R; 0.5) EBer(S,R;0.5),集成核的输出卷积结构可以被表示成:

由于每一层都有两种卷积方式,并且在训练的时候,每一层的卷积都会随机选择这两种卷积中的任意一种,所以对于L层,就有 2 L 2^L 2L中不同的子网络结构。(这一步随机选择也是大大提高了模型的学习空间

3.3. 可学习大小的卷积核

不同感受野大小的圆形和方形卷积核如上图所示。在训练时,作者采用了一个可学习的参数 a a a动态控制了卷积核感受野的大小。

方形卷积核的感受野为 D s = a S D_s=aS Ds=aS,圆形卷积核的感受野为 D c = a R D_c=aR Dc=aR。由于在训练过程中,卷积核的形状是随机选择的,所以训练过程的感受野大小也符合伯努利分布 D c = a R D_c=aR Dc=aR

3.4. 测试时重参数

卷积的过程可以用下面的公式表示:

上面也提到了 B B B在训练完成后其实是一个固定的矩阵,由于乘法的结合律,其实是可以将 B B B矩阵的参数和 W W W的参数进行合并(类似两个FC变成一个FC)。可以在推理之前保存由转换矩阵重参数后的新权重,模型就不再需要根据测试的偏移量逐点进行特征映射。

3.5. Integrated Kernels

对于一个正常的卷积,他的所有参数都是静态,可以被表示成:

带有自适应参数的卷积可以被表示成:

其中$ \hat{\theta}$表示动态自适应的参数。

本文的训练的网络结构如上图所示,本文模型的输出结果可以被表示成:

其中 M u l ( ) Mul() Mul()是一个多重伯努利分布,因为每一层的卷积过程都是随机的,每一层随机从N中卷积方式里选择一种,对于L层,就有 N L N^L NL种不同的组合方式。

4.实验

4.1. Circle Kernels VS Square Kernels

如上图所示,感受野越大,圆形卷积的感受野就更像一个圆形

如上表所示,作者在WRNCifar和DenseNetCifar上做了实验。随着卷积核大小的增加,圆核比方核的优势变得更加显著,表明了圆核的优越性。

4.2. Comparison on CIFAR Datasets

XXX-Int-SC-F表示具有固定大小的方形和圆核,XXX-Int-SC-L表示具有可学习大小的方形和圆核。

可以看出,在没有数据增强的情况下,方核和圆核的方法相较于baseline都有性能的提升,并且可学习大小的集成核在性能上表现最好。

4.3. Comparison on ImageNet

在ImageNet上,作者基于MobileNet和ResNet进行了实验。可以看出,圆核的方法会比方核的性能要更好。总体来说,可以学习的圆核和方核在性能上表现会更好一些。

4.4. Ablation Studies

作者进一步探究了不同核的数量对实验结果的影响。在没有数据增强的情况下,随着集成核数量的增加,模型性能表现出不断增长的趋势。在有数据增强的情况下,圆核并没有展现出性能的提升。

4.5. 可视化

可以看出圆核的可视化结果明显比方核会更加精细、更容易区分物体、更加关注在图片的主体内容上。

5. 总结

基于人类的视觉感知原理,作者提出了一种更接近人类视觉感受的卷积核——圆形卷积核,作者也通过实验证明了,在没有数据增强的情况下,圆形卷积核的表现确实比方形卷积核要好。但是有了数据增强之后,圆形卷积核的性能并没有提升,反而下降了。更重要的一点是,没有数据增强集成核的性能也没有比用了数据增强方核性能要好,这就表明了,圆核带来的效益没有数据增强带来的效益高,而且圆核的效益不能和数据增强的效益兼容。

所以本质上,这篇工作只是在这个方向上开了一个头,还有很多工作可以基于本文继续开拓。另外,个人觉得,由于圆形卷积核在各个方向都是对称的,所以相比于方形卷积核,圆形确实更适合作为感受野的形状。

参考文献

[1]. Li, Duo, et al. “Involution: Inverting the inherence of convolution for visual recognition.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . 2021.

[2]. Wenjie Luo, Yujia Li, Raquel Urtasun, and Richard Zemel. Understanding the effective receptive field in
deep convolutional neural networks. In Advances in Neural Information Processing Systems, volume 29,
pages 4898–4906, 2016.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/65138.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入浅出的模型压缩:你一定从未见过如此通俗易懂的Slimming操作

点击上方“计算机视觉工坊”,选择“星标” 干货第一时间送达 作者丨科技猛兽 编辑丨极市平台 导读 本文首先介绍了模型压缩领域的指标含义,并通过梳理文献,介绍了模型压缩领域常用的方法。随后对Slimming这一模型压缩方法进行了详细介绍&…

Dropout技术之随机神经元与随机深度

1. 写在前面 在学习复现EfficientNet网络的时候,里面有一个MBConv模块长下面这个样子: 当然,这个结构本身并不是很新奇,从resNet开始,几乎后面很多网络,比如DenseNet, MobileNet系列&#xff0…

如何做高质量研究、写高水平论文?| 黄高、王兴刚等共话科研与论文写作

如何产生好的研究思路?如何撰写一篇高质量论文?如何从浩如烟海的论文中寻找好的科研灵感?如何通过Rebuttal为自己的文章扳回一城?导师跟学生之间怎样才能形成更好的合作关系? 在ECCV 2022中国预会议的Panel环节&#x…

智源青年科学家黄高:面向高效推理的深度网络结构设计

随着深度学习在工业界的广泛应用,人们对模型的关注不仅仅在于其预测精度,同时也对计算和存储效率提出了更高的要求。在提升模型效率的诸多手段中,神经网络结构创新始终是最为有效的方式之一。 2019年12月24日上午,智源青年科学家、…

RANet:MSDNet加强版!清华黄高团队提出分辨率自适应的高效推理网络RANet!

关注公众号,发现CV技术之美 本文分享论文『Resolution Adaptive Networks for Efficient Inference』,由清华黄高团队提出分辨率自适应的高效推理网络RANet!MSDNet加强版! 详细信息如下: 论文链接:https://…

ICLR2021 | 清华大学黄高团队:显存不够?不妨抛弃端到端训练

智源导读:本文主要介绍清华大学黄高团队被ICLR2021接收的一篇文章:Revisiting Locally Supervised Learning: an Alternative to End-to-End Training。 论文链接:https://openreview.net/forum?idfAbkE6ant2 代码链接:https://g…

清华大学黄高——图像数据的语义层扩增方法

⬆⬆⬆ 点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2020 年 9 月 25 日,在由中国科协主办,清华大学计算机科学与技术系、AI TIME 论道承办的《2020 中国科技峰会系列活动青年科学家沙龙——人工智能学术生态与产业创新》上&#xf…

DenseNet发明者黄高:动态模型好在哪里?

智源导读:自2012年至今,计算机视觉领域蓬勃发展,各种模型不断涌现,短短 8 年时间,计算机视觉领域便发生了天翻地覆的变化。那么如何看待过往变化,当下研究又如何? 12月10日晚,在【青…

对话 DenseNet 一作黄高:做有韧劲、能抗压、不断探索未知的科研

点击上方“计算机视觉工坊”,选择“星标” 干货第一时间送达 作者丨刘冰一 来源丨极市平台 清华大学助理教授、密集连接卷积网络 (DenseNet)提出者 、计算机视觉领域一作顶会论文被引次数最高的国内学者、百万青橙奖奖金获得者..... 这些标签…

测试工程师的好日子来啦?Testin发布AI测试产品,提升易用性和自动化效率

2019年10月26日,以"AI未来"为主题的第二届NCTS中国云测试行业峰会在北京国际会议中心正式开幕。在本次大会上,Testin 总裁徐琨正式发布测试业务Testin云测的全新AI产品iTestin。作为 Testin 人工智能战略中的重要一环,iTestin 融合…

【CodingNoBorder - 07】无际软工队 - 求职岛:ALPHA 阶段测试报告

无际软工队 - 求职岛:ALPHA 阶段测试报告 项目内容这个作业属于哪个课程2022年北航敏捷软件工程这个作业的要求在哪里团队项目-Alpha阶段测试报告我们在这个课程的目标是熟悉敏捷开发的方法论,并通过实际开发产品进行实践。这个作业在哪个具体方面帮助我…

pytest测试报告Allure - 动态生成标题生成功能、添加用例失败截图

一、动态生成标题 默认 allure 报告上的测试用例标题不设置就是用例名称,其可读性不高;当结合 pytest.mark.parametrize 参数化完成数据驱动时,如标题写死,其可读性也不高。 那如果希望标题可以动态的生成,采取的方案…

❀YOLOv5学习❀图像标注工具LabelImg的下载,配置和使用。

LabelImg是图形图像注释工具。它是用Python编写的,并将Qt用于其图形界面。批注以PASCAL VOC格式(ImageNet使用的格式)另存为XML文件。此外,它还支持YOLO格式。下载这个,主要是为了YOLOv5中,做自己的数据集&…

brat事件标注平台使用教程

事件图谱首先涉及到的是事件标注,我采用的是brat事件标注平台,该平台使用的是Linux系统,因为我的电脑是windows系统, 将brat安装在了linux虚拟机(Ubuntu)上。 一.下载与安装 1.下载brat 进入brat官网brat…

OpenAI 成近期顶流团队?如何使用 OpenAI 和 Node.js 构建 AI 图像生成器?

摘要: 12月7号,知名人工智能研究机构 Open AI 在Youtub上发布视频介绍使用OpenAI 和 DALL-E 模型创建一个网络应用程序,该应用程序将根据输入的文本从头开始生成图像。https://www.youtube.com/watch?vfU4o_BKaUZE 前言💖 大家好&#xff0…

AI 自动写代码插件 Copilot(副驾驶员)

AI 自动写代码插件 Copilot 提示:Copilot单词直译过来就是副驾驶员的意思。 介绍:本质上就是基于GitHub开源的亿级别的代码,训练AI模型,自动生成代码。 就是数据量(GitHub的数据量就很大!)能够决定你AI模型精度的上…

软件测试中的AI——运用AI编写测试用例

文章目录 一、现状二、测试技术可结合AI的几个方向三、尝试使用AI编写测试用例(实验过程)1、AI联系上下文的能力弱2、回答的内容类似于能在网上搜索到的内容3、需要有一个明确的指令4、输出内容有限5、无法想象到需求描述之外的内容 四、总结&#xff1a…

AI热度降温?揭秘加德纳技术成熟度曲线与AI发展阶段

一文解决你所有对 AI 的焦虑 近期,我们发现ChatGPT的热度似乎不如前几个月。许多人尝试了这个技术,觉得它非常强大,但似乎与自己的日常生活和工作关系不大,因此逐渐失去了兴趣。 然而,这实际上是技术发展的正常周期&…

王炸赚钱组合!!ChatGPT + AI大模型

“ 你近期有体验过哪些大模型产品呢? 你有使用大模型API做过一些实际开发吗? 在你日常开发中,可以与大模型相关应用结合来完成工作吗? ” 从去年底开始,大模型的发展趋势就非常迅猛,这也代表着人工智能进入…

ChatGPT + AI大模型 = 王炸!!!

“ 你近期有体验过哪些大模型产品呢? 你有使用大模型API做过一些实际开发吗? 在你日常开发中,可以与大模型相关应用结合来完成工作吗? ” 从去年底开始,大模型的发展趋势就非常迅猛,这也代表着人工智能进入…