【论文阅读笔记】Wavelet Convolutions for Large Receptive Fields

1.论文介绍

Wavelet Convolutions for Large Receptive Fields
大感受野的小波卷积
2024 EECV
Paper Code
在这里插入图片描述

2.摘要

近年来,人们试图通过增加卷积神经网络(ConvolutionalNeuralNets,CNNs)的核尺寸来模拟视觉变换器(VisionTransformers,ViTs)的自我注意块的全局感受野。然而,这种方法很快就达到了上限和饱和,在实现了一个全局感受野之前。本文证明,通过利用小波变换(WT),有可能获得非常大的感受野,而不遭受过度参数化,例如,对于k × k的感受野,所提出的方法中的可训练参数的数目仅随k的对数增长。所提出的WTConv层可作为现有架构中的插入式替代品,产生有效的多频响应,并随着感受野的大小而适度地缩放。

Keywords: 全局感受野、小波变换、多频率

引入WTConv层:提出了一种新的卷积层WTConv,通过结合小波变换扩展感受野,使CNN能够在不显著增加参数的情况下获得接近全局的感受野。
多频率响应:WTConv层利用小波分解将输入分成不同频带,允许卷积层在低频和高频分量上分别进行处理,增强了模型对低频成分(即形状特征)的响应。
低参数增长率:与传统方法中卷积核尺寸增大导致参数和计算量指数级增长不同,WTConv实现了参数的对数增长,使得在大感受野的情况下保持参数效率。
即插即用性:WTConv被设计为可以直接替换现有CNN中的深度卷积操作,无需对架构进行额外修改,具有广泛适用性。

3.Introduction

在过去的十年中,卷积神经网络(CNNs)在很大程度上主导了计算机视觉的许多领域。尽管如此,随着视觉转换器(Vision Transformers,ViT)的出现,CNN面临着激烈的竞争。视觉转换器是对自然语言处理中使用的Transformer架构的改编。具体地说,人们现在认为,ViT优于CNN的优势主要归因于它们的多头自注意层。该层便于特征的全局混合,这与通过构造而被限制为特征的局部混合的卷积形成对比。因此,最近的几项工作试图弥合CNNs和ViT之间的性能差距。Liu等人重新构建了ResNet架构及其训练例程,以跟上Swin Transformer的步伐。还有一个改进是增加卷积的核大小。然而,根据经验,该方法在内核大小为7×7时达到饱和,这意味着进一步增加内核并没有帮助,甚至在某个时候开始恶化性能。虽然单纯地将大小增加到7 × 7以上是没有用的,但Ding等人已经表明,如果构造得更好,甚至可以从更大的核中得到。尽管如此,最终内核变得过度参数化,并且性能在到达全局感受域之前就饱和了。在[11]中分析的一个有趣的特性是,使用较大的核使得CNN更偏向于形状,这意味着它们捕获图像中的低频的能力得到了提高。这一发现有些令人惊讶,因为卷积层通常倾向于对输入中的高频做出响应。这与注意力头不同,注意力头更倾向于低频,如其他研究所示。上面的讨论提出了一个很自然的问题:我们能不能利用信号处理工具来有效地增加卷积的感受域,而不遭受过度参数化的影响?换句话说,我们是否可以使用非常大的过滤器-例如,全局的感受野–同时还能改善性能?本文对这一问题给出了肯定的回答。我们提出的方法利用了小波变换(WT),一种基于时频分析的成熟工具,使卷积的感受域很好地按比例放大,并通过级联,引导CNNs更好地响应低频。在某种程度上,我们将解决方案基于WT的动机在于(不同于傅里叶变换),它保留了一些空间分辨率。这使得空间操作(例如,卷积)更有意义。

更具体地说,本文提出了WTConv,这是一个使用级联WT分解并执行一组小核卷积的层,每个卷积集中在越来越大的感受野中的输入的不同频带上。该过程允许在输入中更加强调低频,同时仅添加少量可训练参数。事实上,对于一个k × k的感受野,可训练参数的数量只随k的对数增长。总结一下,本文的主要贡献是:-一个新的层,称为WTConv,它使用WT来有效地增加卷积的感受域。- WTConv被设计为给定的CNN内的插入式替换(用于深度卷积)。

4.方法详解

作为卷积的小波变换

在这里插入图片描述
在这项工作中,本文采用Haar WT,因为它高效和简单。然而,本文的方法并不局限于它,因为可以使用其他小波基,尽管计算成本增加。

给定一个图像X,在一个空间维度(宽度或高度)上的一维Haar WT通过与核[1,1]/ √ 2和[1,−1]/ √ 2的深度卷积给出,随后是因子为2的标准下采样算子。

一维WT是在一个维度上处理,是深度卷积与下采样的结合。

为了执行2D Haar WT,我们在两个维度上组合操作,使用以下四个滤波器的集合产生步长为2的深度卷积:
在这里插入图片描述
注意,fLL是低通滤波器,fLH(水平高频)、fHL(垂直高频)、fHH(对角高频)是一组高通滤波器。对于每个输入通道,卷积的输出:
在这里插入图片描述
有四个通道,每个通道(在每个空间维度上)的分辨率是X的一半。XLL是X的低频分量,而XLH、XHL、XHH是其水平、垂直和对角高频分量。由于等式最上面中的核1形成正交基,应用逆小波变换(IWT)通过转置卷积获得:
在这里插入图片描述
然后通过递归分解低频分量给出级联小波分解。分解的每一级由下式给出:
在这里插入图片描述
其中X(0)LL = X,i是当前层级。这导致了对于较低频率,频率分辨率增加和空间分辨率减小。

级联小波分解的过程是:每次分解后,只对低频分量(即 LL 分量)进行进一步的小波分解,而不是对四个分量都进行分解。因此,级联小波分解的层次结构会随着每次分解产生新的 LL、LH、HL 和 HH 分量,但这些新分量只来自于上一次分解的 LL 部分。

小波域中的卷积
增加卷积层的核大小会二次增加参数的数量(因此,自由度也会增加)。为了缓解这种情况:首先,使用WT对输入的低频和高频成分进行滤波和降频。然后,在使用IWT构造输出之前,对不同的频率图执行小核深度卷积。换句话说,该过程由下式给出:
在这里插入图片描述
其中X是输入张量,W是具有四倍于X的输入通道的k×k深度核的权重张量。该运算不仅分离了频率分量之间的卷积,而且允许更小的核在原始输入的更大区域中操作,即增加其接受场w.r.t。输入。

将每个频率分量(即小波分解得到的四个频率分量)分别使用一个小卷积核(k × k)进行卷积操作。这里使用的是深度卷积,即在通道维度上逐个卷积。

我们采用该1级组合操作,并通过使用来自等式(1)的相同级联原理进一步增加它。该过程由下式给出:
在这里插入图片描述
其中X(0)LL是层的输入,X(i)H表示第i层的所有三个高频图。为了将不同频率的输出联合收割机组合,我们使用WT及其逆是线性运算的事实,这意味着IWT(X + Y)= IWT(X)+ IWT(Y)。因此,执行
在这里插入图片描述

由于小波变换(WT)和逆变换(IWT)都是线性操作,利用线性叠加的性质可以直接进行叠加

导致不同级别的卷积的总和,其中Z(i)是从级别i向前的聚合输出。其中不同大小卷积的两个输出被求和作为输出。我们不能对Y(i)LL、Y(i)H中的每一个进行归一化,因为它们的单独归一化不对应于原始域中的归一化。相反,我们发现,仅执行通道式缩放来加权每个频率分量的贡献就足够了。图3显示了2级WT情况下的WTConv。
在这里插入图片描述

首先输入一个input,然后进行WT得到四个分量,再对低频分量再进行WT,直至最后一层。对于每一层,先把四个分量经过深度卷积变换,再cat到一起经过IWT得到该层的结果,再把下一层的低频分量与之相加(最后一层的下一层是0),传回上一层,直至第一层。第一层是input经过卷积,与下一层相加得到输出结果。

在这里插入图片描述
使用小波变换的优势
将WTConv合并到给定的CNN中有两个主要的技术优势。首先,每一级WT都增加了层的感受野的大小,而可训练参数的数量只有少量增加。也就是说,WT的第三级级联频率分解,以及每个级的固定大小的核k,允许参数的数量在级别的数量(k· 4 · c · k2)中线性缩放,而感受野以指数方式增长(2 k· k)。
第二个好处是,WTConv层的构造可以比标准卷积更好地捕获低频。

5.结果与总结

语义分割:
在这里插入图片描述
分类:
在这里插入图片描述

我的理解是本文构建了一个基于小波变换的卷积块,可以代替深度卷积使用。因为小波变换不同于傅里叶变换,它包含空间域与频域的信息。做法是首先选定Haar WT作基底,2D变换每次都会分成低频、水平高频、垂直高频、对角高频四个分量;后续还会级联操作,对得到的四个分量中的低频分量会再次进行小波变换,得到更低一级的四个分量。逆变换时,首先会对它们先进行卷积操作(深度卷积),然后低频分量与低一级的四个分量相加,再把这一级的四个分量作逆小波变换。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/464239.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DFS求解迷宫最长移动路线

来源:十四届蓝桥杯STEMA考试Python真题试卷第二套编程第五题 本文给出了C++实现代码,介绍了 STL 中容器vector,pair,unordered_set 的应用,供信奥选手参考。迷宫类问题适合用DFS算法解决,本文最后总结了DFS算法的两种常见实现方式——递归实现、栈实现,应用场景——迷宫…

【react使用AES对称加密的实现】

react使用AES对称加密的实现 前言使用CryptoJS库密钥存放加密方法解密方法结语 前言 项目中要求敏感信息怕被抓包泄密必须进行加密传输处理,普通的md5加密虽然能解决传输问题,但是项目中有权限的用户是需要查看数据进行查询的,所以就不能直接…

SpringBoot新闻稿件管理系统:架构与实现

3系统分析 3.1可行性分析 通过对本新闻稿件管理系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本新闻稿件管理系统采用SSM框架,JAVA作为开发语…

光耦合器的关键作用和创新---腾恩科技

光耦合器或光隔离器已成为电路中必不可少的器件,它允许信号在无需直接电接触的情况下跨不同电压域传输。这种隔离能力对于保护低压元件免受高压电路的潜在损坏至关重要。本文将仔细研究光耦合器在当今技术中发挥的独特作用,并探讨其在各种应用中不断扩展…

HbuildderX运行到手机或模拟器的Android App基座识别不到设备 mac

寻找模拟器 背景: 运行的是h5,模拟器是网易MuMu。 首先检查一下是否配置dab环境,adb version 配置一下hbuilderX的adb: 将命令输出的路径配置到hbuilderx里面去,然后重启下HbuilderX。 开始安装基座…一直安装不…

使用 Spring Boot 搭建 WebSocket 服务器实现多客户端连接

在 Web 开发中,WebSocket 为客户端和服务端之间提供了实时双向通信的能力。本篇博客介绍如何使用 Spring Boot 快速搭建一个 WebSocket 服务器,并支持多客户端的连接和消息广播。 1. WebSocket 简介 WebSocket 是 HTML5 的一种协议,提供了客…

C# 日志框架 NLog、log4net 和 Serilog对比

文章目录 前言NLog、log4net 和 Serilog 三个框架的详细对比:一、NLog优点:缺点:二、 log4net优点缺点三、Serilog优点缺点四、Serilog使用举例总结前言 NLog、log4net 和 Serilog 三个框架的详细对比: NLog、log4net 和 Serilog 是三个非常流行的 .NET 日志框架,它们各自…

从0开始本地部署大模型

这就开始从0开始本地部署大模型 下载Ollama 下载地址:https://ollama.com/download/windows 适用于MacOS、Linux和Windows,这里我下载Windows的安装包。 直接打开安装包,点击install即可,安装完成后可以在任务栏中看到Ollama程…

RHCSA课后练习3(网络与磁盘)

1、配置网络:为网卡添加一个本网段IPV4地址,x.x.x.123 涉及的知识点 配置网络: ens160:en---表示以太网 wl---表示无线局域网 ww---表示无线广域网 注意:一个网络接口,可以有多个网络连接,但…

Linux:网络协议socket

我们之前学的通信是本地进程间通信,如果我们想在网络间通信的话,就需要用到二者的ip地址,分别被称为源IP地址和目的IP地址,被存入ip数据包中,其次我们还需要遵循一些通信协议。 TCP协议:传输层协议&#x…

相机硬触发

PLC 接线图 通过使用PNP光电感应器 实现相机的硬触发 流程:触发相机拍照 然后相机控制光源触发 完成线路连接后 使用MVS 配置相机硬触发参数 通过 pnp传感器控制 硬触发拍照 检测 在2开项目中 不用在点击执行流程 通过PNP传感器就能触发 扩展: 在VP…

浅谈UI自动化

⭐️前言⭐️ 本篇文章围绕UI自动化来展开,主要内容包括什么是UI自动化,常用的UI自动化框架,UI自动化原理等。 🍉欢迎点赞 👍 收藏 ⭐留言评论 🍉博主将持续更新学习记录收获,友友们有任何问题…

儿童安全座椅行业全面深入分析

儿童安全座椅就是一种专为不同体重(或年龄段)的儿童设计,将孩子束缚在安全座椅内,能有效提高儿童乘车安全的座椅。欧洲强制性执行标准ECE R44/03的定义是:能够固定到机动车辆上,带有ISOFIX接口、LATCH接口的…

net core Autofac 替换默认的服务容器 DI,微软自动的容器 不支持命名选项的

微软默认的容器,不支持命名选项,同一接口,多个实现。 就不支持了。 配置core 支持Autofac 容器 using Autofac; using Autofac.Extensions.DependencyInjection;namespace WebApplication13 {public interface IMyService{string GetData()…

架构系列---高并发

目录标题 前言宏观架构细节解读第一层 :DNS第二层 : LVS 负载第三层 : Nginx第四层 : Gateway Application并发上限更多方案 业务扩展从域名角度如何承受更大的流量从业务的角度看如何分流大的流量 总结 前言 年轻的时候看到文章…

植被遥感常用反射特征表达

Figure: HDRF Let Ω ′ \Omega Ω′ be the incident solid angle, Ω \Omega Ω is leaving solid angle. Consider the BRDF of a Lamvertian target is 1 π \frac{1}{\pi} π1​, the BRF is 1. The HDRF of a target is defined as: R h e m ( Ω ) Φ r Φ r l a …

使用 MONAI Deploy 在 AMD GPU 上进行全身分割

Total body segmentation using MONAI Deploy on an AMD GPU — ROCm Blogs 2024 年 4 月 4 日 作者: Vara Lakshmi Bayanagari. 医疗开放网络人工智能(MONAI)是一个开源组织,提供最先进的医疗成像模型的 PyTorch 实现&#xff0c…

解决 ClickHouse 高可用集群中 VRID 冲突问题:基于 chproxy 和 keepalived 的实践分析

Part1背景描述 近期,我们部署了两套 ClickHouse 生产集群,分别位于同城的两个数据中心。这两套集群的数据保持一致,以便在一个数据中心发生故障时,能够迅速切换应用至另一个数据中心的 ClickHouse 实例,确保服务连续性…

推荐FileLink数据跨网摆渡系统 — 安全、高效的数据传输解决方案

在数字化转型的浪潮中,企业对于数据传输的需求日益增加,特别是在不同网络环境之间的文件共享和传输。为了满足这一需求,FileLink数据跨网摆渡系统应运而生,为企业提供了一种安全、高效的数据传输解决方案。 安全第一,保…

力扣排序350题 两个元组的交集2

题目: 给你两个整数数组 nums1 和 nums2 ,请你以数组形式返回两 数组的交集。返回结果中每个元素出现的次数,应与元素在两个 数组中都出现的次数一致(如果出现次数不一致,则考虑取 较小值)。可以不考虑输出…