【论文精读】CAM:基于上下文增强和特征细化网络的微小目标检测

在这里插入图片描述


文章目录

  • 🚀🚀🚀摘要
  • 一、1️⃣ Introduction---介绍
  • 二、2️⃣Related Work---相关工作
    • 2.1 🎓 基于深度学习的对象检测器
    • 2.2 ✨多尺度特征融合
    • 2.3 ⭐️数据增强
  • 三、3️⃣提议的方法
    • 3.1 🎓 具有上下文增强和特征细化的特征金字塔网络
      • 3.1.1 ☀️上下文增强模块
      • ☀️3.1.2 特征细化模块


🚀🚀🚀摘要

微小的物体由于其低分辨率和小尺寸而很难被探测到。微小目标检测性能差的主要原因是网络的局限性和训练数据集的不平衡性。提出了一种结合上下文增强和特征细化的新型特征金字塔网络。将多尺度展开卷积的特征从上到下融合注入到特征金字塔网络中,补充上下文信息。引入通道和空间特征细化机制,抑制多尺度特征融合中的冲突形成,防止微小目标淹没在冲突信息中。此外,提出了一种数据增强方法copy-reduce-paste,该方法可以增加训练过程中微小对象对损失的贡献,保证训练更加均衡。实验结果表明,所提网络VOC数据集上目标目标的平均精度达到16.9% (IOU=0.5:0.95),比YOLOV4高3.9%,比CenterNet高7.7%,比RefineDet高5.3%。


一、1️⃣ Introduction—介绍

微小目标检测作为目标检测领域的一个挑战,被广泛应用于自动驾驶、医疗领域、无人机导航、卫星定位、工业检测等视觉任务中。近年来,基于深度学习的目标检测器取得了很大的进展,以yolo、SSD为代表的一阶段算法可以通过前向卷积神经网络直接快速访问到感兴趣的目标。然而,两阶段算法根据生成的候选框获得RoI(感兴趣区域),具有更高的准确性。尽管这些目标检测算法在精度和速度上取得了很大的进步,但在检测微小目标(小于32×32像素)时,其性能仍然很不理想。在大多数公开数据集上,微小物体的检测精度甚至不到较大目标的一半。因此,微小物体检测仍有很大的改进空间。

微小目标检测性能不佳主要是由于网络本身的局限性和训练数据的不平衡造成的。为了获得可靠的语义信息,现代检测器试图叠加越来越多的池化和下采样操作,使得像素较少的微小物体特征在转发传播中逐渐丢失,限制了微小物体的检测性能。FPN可以在一定程度上缓解信息扩散问题,通过水平融合低分辨率特征图和高分辨率特征图。然而,直接融合不同密度的信息会产生语义冲突,限制了多尺度特征的表达,使微小物体容易淹没在冲突信息中。同时,在目前的经典公共数据集中,微小目标的标注数量远远少于较大目标的标注数量。因此,在训练过程中,网络的收敛方向不断向较大的目标倾斜,导致微小目标的性能不佳。因此,我们认为从以上两个方面提高微小物体的检测率是可行的。

为了解决微小目标的特征分散和层与层之间的语义差异问题,本文提出了一种结合上下文增强和特征细化的特征金字塔复合神经网络结构。提出的算法框架如图1所示。
在这里插入图片描述
图1:整体网络结构。CAM和FRM是网络的主要组成部分。CAM将上下文信息注入FPN, FRM过滤FPN冲突信息。

它结合了上下文增强模块(CAM)和特征细化模块(FRM)。CAM融合多尺度展开卷积特征,获得丰富的上下文信息,用于特征增强。FRM在通道和空间维度上引入特征细化机制,抑制冲突信息,防止微小目标淹没在冲突信息中。同时,为了保证网络在训练过程中不会倾向于较大的目标,提出了一种称为复制-减少-粘贴的方法来增加训练中微小目标的损失贡献。我们在标准公共数据集PASCAL VOC上进行训练和测试,并通过对比实验和烧蚀实验验证了我们的方法检测微小物体的有效性。本文提出的算法在VOC数据集上的精度达到83.6% (IOU=0.5),高于大多数比较算法,对微小物体的精度达到16.9% (IOU=0.5:0.95),高于YOLOV4、CenterNet等前沿网络。

二、2️⃣Related Work—相关工作

2.1 🎓 基于深度学习的对象检测器

目标检测是一项基本的计算机视觉任务,它包含分类和定位两个方面,可以看作是一个回归问题。早期,手工设计的特征被广泛应用于目标检测。然而,手工设计的特征是一种浅特征,在基于cnn的特征出现后逐渐被取代。R-CNN作为两阶段算法的先驱,采用不同大小的先验盒对不同大小的目标进行匹配,然后通过CNN选择候选区域。为了减少训练时间,FastRCNN提取整幅图像的特征图,然后使用空间金字塔池化和RoI池化来生成区域特征并过滤候选区域。为了进一步提高微小目标的精度,EFPN提出了超分辨率特征金字塔结构来放大微小目标特征。与两级网络相比,一级网络速度更快,但精度较低。SSD在图像上密集地放置锚盒来获取目标盒,同时充分利用不同尺度的特征来检测较小的目标。YOLOV3选择基于特征金字塔的三个输出分别检测大、中、微小物体,显著提高了微小物体的检测性能。在FPN中引入了一种高分辨率注意机制,以挖掘微小目标的最有用信息。本文选择YOLOV3作为基准,并在此基础上进行改进。RefineDet引入了一种新的损失函数来解决简单样本和困难样本之间的不平衡问题。最近,基于无锚架构的检测器变得越来越流行。尽管目标检测算法在不断发展和更新换代,但在微小物体检测领域并没有大的突破,微小物体的检测精度仍然较低。

2.2 ✨多尺度特征融合

利用多尺度特征是提高微小物体检测精度的有效方法。 SSD是首次尝试利用多尺度特征来预测目标的位置和类别。 FPN从上到下合并不同粒度的相邻特征图,可以大大提高特征的表达能力,大量类似于FPN的变体结构已经出现。PANet在 FPN的基础上添加了额外的自下而上连接,以更有效地将信息从下层传输到上层。NAS-FPN通过神经架构搜索技术找到了一种新的连接方法。BiFPN改进了 PANet的连接方法,使其更加高效,并在连接点引入了简单的注意力机制。虽然上述结构极大地提高了网络的多尺度表达能力,但它们忽略了不同尺度特征之间冲突信息的存在,而上下文信息的缺乏可能会阻碍性能的进一步提升,尤其是对于微小物体,,很容易被冲突信息淹没,本文充分考虑了冲突信息和上下文信息对检测精度的影响。

2.3 ⭐️数据增强

训练集的预处理一直是深度学习中不可或缺的一部分,例如旋转、变形、随机擦除、随机遮挡、光照扭曲、MixUp等。,最近,一些针对微小物体的数据增强方法被提出。将损失视为一种反馈。将四张图像缩放至相同尺寸并拼接在一起,以增强反馈引导下微小物体检测的性能。与(Chen et al., 2020)不同,(Yu &Koltun, 2015)将 4 张图像缩放为不同尺寸并将它们拼接成一张。(Kisantal et al., 2019)尝试通过复制并粘贴微小对象来实现微小对象数据增强到原始图像。该方法只能增加微小物体的数量,而不能增加包含微小物体的训练图像的数量,一定程度上也会造成训练的不平衡。由于较大的目标广泛分布在每批训练中,本文保证了每批训练中微小目标对损失的贡献,使训练更加平衡。

三、3️⃣提议的方法

本章将详细介绍我们的微小物体检测网络。,如图 1 所示,{C2, C3, C4, C5} 表示输入图像被下采样 {4, 8, 16, 32} 次后的不同级别。 ,{F1,F2,F3}通过一层卷积表示为与{C3,C4,C5}对应的新生成的特征级别,而C2由于杂乱的噪声而被丢弃。 {L1,L2,L3}表示为FPN生成的特征级别,{P1,P2,P3}表示为FRM生成的特征级别。该网络主要由CAM和FRM组成。CAM 的灵感来自于人类识别物体的模式。例如,人类很难区分很高的天空中的鸟,但是当将天空作为上下文信息时,人类就很容易区分。因此,我们认为上下文信息有助于微小物体检测。CAM应用不同空洞卷积率的空洞卷积来获取不同感受野的上下文信息,并将其自上而下注入到FPN中以丰富上下文信息。但由于不同层次FPN之间的语义差异,在共享信息的同时会引入冗余信息和冲突信息。因此,提出FRM来过滤冲突信息,减少语义差异。,通过自适应融合不同层之间的特征,消除层间的冲突信息,防止微小物体特征淹没在冲突信息中。

同时,鉴于微小物体产生的正样本数量较少以及微小物体对丢失的贡献有限,提出了一种称为复制-减少-粘贴的数据增强方法。具体来说,复制训练集中较大的目标,缩小它们,然后将它们粘贴回原始图像。在粘贴过程中,需要保证粘贴的目标不与已有的目标重叠。,上述方法将在下面的章节中详细解释。

3.1 🎓 具有上下文增强和特征细化的特征金字塔网络

3.1.1 ☀️上下文增强模块

微小目标检测需要上下文信息。我们提出使用不同空洞卷积速率的空洞卷积来获取不同感受野的上下文信息,以丰富FPN的上下文信息。结构如图2所示。
在这里插入图片描述
图2:CAM的结构:特征分别以1、3、5的速率进行空洞卷积处理。语境信息是通过融合不同感受野的特征得到的

图2是cam的结构(Yu &Koltun, 2015)。我们在C5上以不同的空洞卷积速率进行空洞卷积,得到不同感受野的上下文信息。核大小为3×3,空洞卷积速率为1、3和5。可能的融合方式如图3 (a)、(b)和(c)所示。
在这里插入图片描述
图3:融合方式。

方法(a)和(c)分别为加权融合和拼接操作。即直接在空间维度和通道维度上添加特征映射。方法(b)是一种自适应融合方法。具体来说,假设输入的大小可以表示为(bs, C, H, W),我们可以通过卷积、拼接和Softmax操作获得(bs, 3, H, W)的空间自适应权值。三个通道一对一地对应三个输入,通过计算加权和可以将上下文信息聚合到输出。我们通过消融实验验证了每种融合方法的有效性,结果如下表1所示。 AP ⁡ s \operatorname{AP}_{\mathrm{s}} APs AP ⁡ m \operatorname{AP}_{\mathrm{m}} APm AP ⁡ l \operatorname{AP}_{\mathrm{l}} APl分别定义为微小、中等和大型目标的精度。 AR ⁡ s \operatorname{AR}_{\mathrm{s}} ARs AR ⁡ m \operatorname{AR}_{\mathrm{m}} ARm AR ⁡ l \operatorname{AR}_{\mathrm{l}} ARl分别表示小、中、大目标的召回率。由表1可以看出,(c)对微小物体的优势最大。 AP ⁡ s \operatorname{AP}_{\mathrm{s}} APs AR ⁡ s \operatorname{AR}_{\mathrm{s}} ARs均增长1.8%。方法(b)对于大中型目标改善最大。方法(a)带来的改进基本上介于两者之间。

在这里插入图片描述
表1:CAM的消融实验结果

☀️3.1.2 特征细化模块

提出FPN(Lin et al., 2017)来融合不同尺度的特征。然而,不同尺度的特征具有不可忽视的语义差异。直接融合不同尺度的特征会带来大量的冗余信息和冲突信息,降低了多尺度的表达能力。因此,提出FRM来过滤冲突信息,防止微小目标特征被淹没在冲突信息中。FRM的整体结构如图4所示。
在这里插入图片描述
图4:建议的FRM:(a) FRM的框架。(b) (a)中实线表示的结构


在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/291928.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt与编码

ASCII码:一个字节&#xff0c;256个字符。 Unicode:字母&#xff0c;汉字都占用两个字节。 utf-8:字母一个字节&#xff0c;汉字3个字节。 gbk:字母一个字节&#xff0c;汉字2个字节。 gb2312:可以表示汉字&#xff0c;gb2312<gbk。 编码查看&#xff1a; https://www.…

烫烫烫手的结构体大小计算来咯,很烫哦,慢慢消化。自定义类型(一)

emmm&#xff0c;在这炎热的夏天在宿舍吹着空调写着博客也是一件不错的事呢&#xff0c;今天就来来好好盘一下C语言中的自定义类型。 常常会回顾努力的自己&#xff0c;所以要给自己的努力留下足迹。 为今天努力的自己打个卡&#xff0c;留个痕迹吧 2024.03.29 小闭 目录 …

Linux之权限管理

Linux 下有两种用户&#xff1a;超级用户&#xff08; root &#xff09;、普通用户。 超级用户&#xff1a;可以再linux系统下做任何事情&#xff0c;不受限制 普通用户&#xff1a;在linux下做有限的事情。 超级用户的命令提示符是“#”&#xff0c;普通用户的命令提示符是…

【Qt 学习笔记】Day1 | Qt 开发环境的搭建

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;Qt 专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ Day1 | Qt 开发环境的搭建 文章编号&#xff1a;Qt 学习笔记 / 02 文…

mysql进阶知识总结

1.存储引擎 1.1MySQL体系结构 1).连接层 最上层是一些客户端和链接服务&#xff0c;包含本地sock通信和大多数基于客户端/服务端工具实现的类似于TCP/IP的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念&#xff0c;为通过认证…

Linux第84步_了解Linux中断及其函数

1、中断号 中断号又称中断线&#xff0c;每个中断都有一个中断号&#xff0c;通过中断号即可区分不同的中断。 2、Linux中断API函数 需要包含头文件“#include <linux/interrupt.h>” 1)、在使用某个中断功能的时候&#xff0c;需要执行“申请中断” int request_irq(…

左手医生:医疗 AI 企业的云原生提效降本之路

相信这样的经历对很多人来说并不陌生&#xff1a;为了能到更好的医院治病&#xff0c;不惜路途遥远奔波到大城市&#xff1b;或者只是看个小病&#xff0c;也得排上半天长队。这些由于医疗资源分配不均导致的就医问题已是老生长谈。 云计算、人工智能、大数据等技术的发展和融…

阿里云安全产品简介,Web应用防火墙与云防火墙产品各自作用介绍

在阿里云的安全类云产品中&#xff0c;Web应用防火墙与云防火墙是用户比较关注的安全类云产品&#xff0c;二则在作用上并不是完全一样的&#xff0c;Web应用防火墙是一款网站Web应用安全的防护产品&#xff0c;云防火墙是一款公共云环境下的SaaS化防火墙&#xff0c;本文为大家…

海量数据处理项目-账号微服务和流量包数据库表+索引规范(下)

海量数据处理项目-账号微服务和流量包数据库表索引规范&#xff08;下&#xff09; 第2集 账号微服务和流量包数据库表索引规范讲解《下》 简介&#xff1a;账号微服务和流量包数据库表索引规范讲解 账号和流量包的关系&#xff1a;一对多traffic流量包表思考点 海量数据下每…

Spring依赖注入思想分析

Spring 依赖注入思想分析 文章目录 Spring 依赖注入思想分析一、前言二、控制反转&#xff08;Inversion of Control&#xff09;1. 代码依赖初始化问题2. 匿名内部类解决方案3. 创建接口实现类方案4. 问题深入5. 定义父类解决问题1方案6. 控制反转解决问题2方案 三、依赖注入&…

const在指针中的作用以及*p在各种写法中分别代表什么含义

const在指针中起固定的作用&#xff0c;在不同的写法中其效果也有所区别&#xff0c;具体如下&#xff1a; 1、int* const p固定的是指针p指向的地址。 2、int const *p固定的是指针p指向地址中储存的内容。 例&#xff1a; 以上操作在编译器中执行不了&#xff0c;会报错。…

武汉星起航:助力跨境电商新手,打造高质量亚马逊产品评价新策略

在今日全球化与数字化浪潮的推动下&#xff0c;跨境电商已成为推动国际贸易发展的新动力。然而&#xff0c;随着市场竞争的日益激烈&#xff0c;如何让自己的产品在亚马逊平台上脱颖而出&#xff0c;成为了众多跨境电商新手面临的重要问题。武汉星起航电子商务有限公司&#xf…

【AI系列】Python NLTK 库和停用词处理的应用

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Codeforces Round 934 (Div. 2) D. Non-Palindromic Substring

题目 思路&#xff1a; #include <bits/stdc.h> using namespace std; #define int long long #define pb push_back #define fi first #define se second #define lson p << 1 #define rson p << 1 | 1 const int maxn 1e6 5, inf 1e9, maxm 4e4 5; co…

【ERP原理与应用】用友U8实验

实验一、系统管理与基础设置 实验内容&#xff1a; 一、核算体系的建立 好友软件公司是一家软件制造和系统集成企业&#xff0c;其产品面向国内外市场&#xff0c;自 2019 年 3 月公司开始使用 ERP 软件管理业务。软件操作员有三位&#xff0c;黄红是账套 主管&#xff0c;张…

【C++】string类(常用接口)

&#x1f308;个人主页&#xff1a;秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343&#x1f525; 系列专栏&#xff1a;http://t.csdnimg.cn/eCa5z 目录 修改操作 push_back append operator assign insert erase replace c_str find string类非成…

量化交易入门(二十五)什么是RSI,原理和炒股实操

前面我们了解了KDJ&#xff0c;MACD&#xff0c;MTM三个技术指标&#xff0c;也进行了回测&#xff0c;结果有好有坏&#xff0c;今天我们来学习第四个指标RSI。RSI指标全称是相对强弱指标(Relative Strength Index),是通过比较一段时期内的平均收盘涨数和平均收盘跌数来分析市…

论文研读:Transformers Make Strong Encoders for Medical Image Segmentation

论文&#xff1a;TransUNet&#xff1a;Transformers Make Strong Encoders for Medical Image Segmentation 目录 Abstract Introduction Related Works 各种研究试图将自注意机制集成到CNN中。 Transformer Method Transformer as Encoder 图像序列化 Patch Embed…

Net8 ABP VNext完美集成FreeSql、SqlSugar,实现聚合根增删改查,完全去掉EFCore

没有基础的&#xff0c;请参考上一篇 彩蛋到最后一张图里找 参考链接 结果直接上图&#xff0c;没有任何业务代码 启动后&#xff0c;已经有了基本的CRUD功能&#xff0c;还扩展了批量删除&#xff0c;与动态查询 动态查询截图&#xff0c;支持分页&#xff0c;排序 实现原理…

消息队列经典应用场景

笔者心中,消息队列,缓存,分库分表是高并发解决方案三剑客。 在职业生涯中,笔者曾经使用过 ActiveMQ 、RabbitMQ 、Kafka 、RocketMQ 这些知名的消息队列 。 这篇文章,笔者结合自己的真实经历,和大家分享消息队列的七种经典应用场景。 1 异步&解耦 笔者曾经负责某电…