摘要
WTConv(基于小波变换的卷积层),用于在卷积神经网络(CNN)中实现大感受野。作者通过利用小波变换,设计了一个卷积层,可以在保持少量可训练参数的情况下大幅扩大感受野。WTConv 被设计为可以无缝替换现有 CNN 架构中的深度卷积层,适用于图像分类、语义分割、物体检测等任务。
理论介绍
WTConv 的核心思想是通过结合卷积神经网络(CNN)的强大特征提取能力与小波变换的多尺度特性,来实现大感受野的卷积操作,同时避免传统大卷积核带来的参数爆炸问题。传统的卷积操作通过滑动小窗口在图像上逐步执行局部特征提取,感受野的大小直接取决于卷积核的尺寸。随着卷积核的增大,参数量呈指数增长,导致网络训练效率降低、计算资源消耗增加。为解决这些问题,WTConv 提出了在小波域中执行卷积操作的策略。小波变换是一种常用于信号处理的技术,能够将信号分解为不同频率成分。WTConv 使用了其中的 Haar 小波变换,作为一种简单高效的工具,将输入图像进行分解,得到不同频带的低频和高频分量。在图像经过小波变换之后,低频分量保留了图像的全局结构信息,而高频分量则包含了图像的细节特征。通过对低频部分递归应用小波变换,WTConv 能够以较少的参数对大尺度特征进行捕捉,从而有效扩大感受野,而无需显著增加计算复杂度。在小波域中进行卷积操作可以带来更大的感受野对第二级小波域的低频带 XLL(2) 进行 3 × 3 卷积,产生一个包含 9 个参数的卷积操作,该操作响应输入 X 中 12 × 12 感受野的低频部分,如下图(摘自官网论文)所示:
理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址
下文都是手把手教程,跟着操作即可添加成功
目录
- 摘要
- 理论介绍
- 🎓一、YOLOv8原始版本代码下载
- 🍀🍀1.yolov8模型结构图
- 🍀🍀2.环境配置
- 🎓二、WTConv代码
- 🎓三、添加方法