论文阅读<CF-YOLO: Cross Fusion YOLO for Object Detection in Adverse Weather.....>

论文链接:https://arxiv.org/pdf/2309.08152.pdfhttps://arxiv.org/pdf/2206.01381.pdfhttps://arxiv.org/pdf/2309.08152.pdf

代码链接:https://github.com/DiffPrompter/diff-prompter

目前没有完整代码放出。

        恶劣天气下的目标检测主要有以下三种解决方案:1)使用预处理(pre-processing),例如image desnowing/deraining/dehazing,尽管已经有大量的方法去完成这个工作,但是会丢失图像细节。2)使用双分支网络联合学习图像恢复和目标检测,这两个网络共享特征提取层,但是在训练中很难平衡这两项任务。3)使用无监督域适应(Domain Adaptation)来对齐干净图像和恶劣天气下拍摄的特征,但是这样有利于检测的潜在信息可能被忽略。

Abstract 

       

Motivation

        是否能够通过建立真实的雪天OD数据集和开发特征聚合模块(feature aggeregation module)来学习潜在信息的协同作用,增强尖端Object Detection网络在雪天条件下的能力。

Real-World Snowy Object Detection Dataset

A Dataset Introduction

        建立了用于雪中目标检测的真实世界的数据集RSOD(real-world snow object detection dataset),包含2100张不同场景的图像,主要是雪中城市和交通场景,实例分布如下图所示。把雪天分为四个难度等级:easy, normal, difficult, particularly difficult。通过计算SCR值和人工观测进行等级划分,1~600为easy,601~1600为normal,1601~2000为difficult,2001~2100为particularly difficult。

B Unsupervised Training for SCR Calculation

        SCR(snow coverage rate)用来衡量雪覆盖的面积,用下边的公式进行计算。A_{snow}A_{bbox}分别表示雪和bounding box的面积。直接对图片标注可以计算出SCR值,但是这样非常耗费时间。这里采用无监督的训练策略来训练一个响应雪像素并抑制不是雪的像素的CNN。主要通过下边三个策略来实现。

SCR=A_{snow}/A_{bbox}

1、用大雪覆盖大部分图像区域的图像训练CNN模型。对应的ground truth是输入大小相同且几乎所有像素都等于1的map。该步骤将引导模型映射为每个值都等于1的map,模型中的卷积核将通过反向传播对积雪特征进行编码。

2、设计了一个激活函数Peak Act抑制非雪元素。如图2 ( d )所示,我们称激活函数为P eak Act。由于我们用于训练的图像中积雪覆盖面积最大,卷积核自然会对积雪像素做出响应,而对非积雪像素进行抑制。Peak Act表达式如下,设计时遵循以下三个原则:1)是一个峰值函数,其中峰值为( 1 , 1)。因为我们的基本真值是一个所有元素都等于1的矩阵,所以训练过程会引导输出结果趋向于1。并且峰值将有效面积限制在很小的带宽内,如图2 ( d )所示。2)零映射为零。如果一个零映射到一个非零值,就会有一些懒惰的卷积核,所有的权重都等于0,将所有的像素平滑到一个非零值。因此,后面层的特征很容易被等同于真实值,从而导致训练的失败。3)为凹函数,确保特征值在经过激活函数后不会趋近于1。特征只有通过优化才能趋近于1。

f(x)= \left\{\begin{matrix} 0.2x& x<0\\ x^{2}& 0\leq x<1\\ (x-2)^{2}&1\leq x <2 \\ -0.2(x-2)&x\geqslant 2 \end{matrix}\right.

3、CNN的最后一层是Max-out function。它将通道维度中每个像素的最大特征值输出,形成单通道特征图O和Ground Truth去计算损失。由于Peak Act的上限为1,网络的输出将始终小于或等于1。Max - out层将鼓励不同的通道响应不同的特征,从而导致高度特定的内核优化。P是网络参数,α设置为1,β设置为0.0001。损失函数的第一项是引导优化方向,第二项是L1正则化,用于得到稀疏特征。

Loss = \alpha\frac{1}{W*H}\sum_{i}\sum_{j}(GT_{ij}-O_{ij})+\beta||P||_{1}

        CNN模型如图3所示。在训练和测试(即,计算SCR)的过程中,我们使用了不同的头。该模型将输入图像分解为32个通道,并对不同通道的特征图进行二值化和可视化。如图2 ( b )和图2 ( c )所示,Feature Map - 31对积雪的响应非常特异,而Feature Map - 11对边缘的响应非常特异。响应积雪的特征图可以通过统计二值化图中的光照像素来计算SCR。我们还对不同通道的3D表面进行了可视化,如图2 ( e )和图2 ( f )所示,它清楚地显示了通道- 31对积雪区域的响应和对非积雪区域的抑制。CNN和Peak Act的设计,使得能够计算SCR,从而对雪天图像进行分级。

Method

        在MSCOCO训练和的模型,在RSOD上进行检测,由于域偏移(domain shift)的问题,性能严重退化。除此之外,我们还发现一些大物体在雪天中更容易被遗漏,这可能违背常识,因为许多研究表明在大模型上性能很好。基于这一观察,对yolov5s做了小的调整,。通过设置检测置信度阈值为0.01,我们惊讶地发现YOLOv5s已经检测出了雪天图像(类似的现象也存在于许多其他的雪天图像中)中的那些大目标,但是置信度过低,无法通过非极大值抑制( NMS ),导致预测错误,如图10 ( b )。原因是大雪会改变物体的轮廓、纹理和表面,使低层视觉信息缺失和扭曲

        YOLOv5s使用的是Feature Pyramid 和Path Aggregation Network(FPN+PANet)作为特征融合模块,特征在进入检测头之前经过了top-down和bottom-up。而在雪天图像中,低层视觉信息被遗漏或者失真,这种无意义的信息会随着网络进行传播。在深度网络中,深层网络的感受野比较大,因此,更深层的网络可能会考虑到更多的无意义特征。可能会稀释有意义的特征,干扰网络从被雪覆盖的物体中提取有意义的特征,降低预测的置信度。

A Cross Fusion

        为了解决上边提出的问题,这篇论文提出了一个新的交叉融合模块(cross fusion,CF)能够直接集成来自不同层次的特征。该模块的目的是缩短传播路径,而不是使模型变得更复杂或更深入。如图4所示,把不同尺度的输入特征同时送入CF层,促使最后一个阶段直接到达低层特征。CF层还允许不同的输入输出分支,这使得CF成为一个即插即用的模块,以适应不同的模型。

        和FPN+PANet相比,CF可以在低层特征和高层特征之间提供更短的路径,CF的特征融合可以表示为。f_{CSP}是CSP模块,\bigoplus是逐像素相加,O_{1}是CF的结果。CF的特征融合发生在后处理组件之前,而" FPN + PANet "的特征融合只能按照自顶向下和自底向上的顺序依次进行

O_{1}=f_{CSP}(Conv_{11}(X_{1})\bigoplus Conv_{12}(X_{2}) ) \bigoplus Conv_{13}(Resize(X_{3}))

B CF-YOLO

        把YOLOV5的neck部分替换为如图5所示的结构,此外,CF - YOLO的结构非常灵活。通过改变CF ( n )的个数、出入阶段数( In和Out)和g Oct Conv ( K )的核大小,可以很容易地对其进行修改。在这项工作中,我们的CF - YOLO堆叠了两层CF ( n = 2 )。CF-YOLO ( K = 1 )、CF - YOLO ( K = 3 )分别表示CF的核尺寸等于1和3

Experiment

A Comparison of different activation functions

         为了验证提出的Peak Act的有效性,我们将一般的激活函数Sigmoid,ReLU [ 34 ]和Leaky Relu激活函数[ 35 ]与Peak Act进行了比较。并选取最佳的特征图可视化结果进行对比。可以看到只有Peak Act能够保存模型把积雪特征从非积雪特征中分离出来。

B Performance of Detectors on RSOD

        CF - YOLO是在PyTorch中实现的。所有训练设置与YOLOv5s (批大小= 32 ,动量为0.937 ,权重衰减为0.0005的SGD优化器,学习率= 0.01)相同。我们将CF - YOLO与不同的SOTA方法进行了比较,包括YOLOv5s,SSD300 [ 20 ],EfficientDet D0和D1。此外,将RSOD分为训练集、验证集和测试集,分别包含1701、189和210张图像。为了平衡每个子集的难度,图像被随机分配到各个子集。为了验证RSOD的4个难度等级,我们分别在这4个难度等级和整个数据集上进行测试。

        为了验证RSOD的4个难度等级,我们分别在这4个难度等级和整个数据集上进行测试。为了公平比较,所有检测器仅使用MSCOCO进行训练,结果在表1中显示。与YOLOv5s相比,CF - YOLO具有更高的检测结果置信度,能够减少漏检和误检。原因在于提出的CF块使得不同层次的特征能够直接交互,从而可以恢复稀释在高层特征中的有意义的信息。

        为了比较不同方法在RSOD数据集上训练后的性能,使用MSCOCO预训练的权重在RSOD上训练了20个epoch。  我们只训练了20个历元的网络,这就足够了,因为RSOD比MSCOCO小得多。如表2所示,在验证集和测试集上,CF - YOLO仍然优于SOTAs,这证实了CF - YOLO在降雪天气中的优势。

C Performance of Detectors on MSCOCO

        为了进一步考察CFYOLO的泛化能力,我们在MSCOCO上对CF - YOLO的两个版本( K = 1或3)从头训练300历元。表3展示了CF - YOLO和SOTAs在MSCOCO上的比较。可以看到,核大小为K = 1或K = 3的CF - YOLO取得了与YOLOv5s相近的结果。这意味着我们的CF - YOLO在降雪天气下表现良好,而在正常天气下仍然具有竞争力。

Conclusion

        不利的天气往往会给为自动化系统供电的传感器造成能见度问题。尽管前沿的目标检测器在正常天气下捕获的数据集上取得了令人鼓舞的结果,但从恶劣天气(例如,降雪天气)中捕获的低质量图像中检测目标仍然非平凡的。它们往往忽略了对检测有益的潜在信息。通过开发一个采用无监督的训练策略,我们建立了一个高质量的用于目标检测的真实世界雪花数据集( RSOD )。考虑到基于CNN的检测器在RSOD上的退化,我们提出了交叉融合YOLO ( CF-YOLO ):一种轻量但有效的目标检测器。结果表明,我们的CF - YOLO不仅在RSOD上取得了优异的性能,而且是一个有竞争力的轻量级通用检测器,这将为户外视觉系统提供便利。                

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/224922.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker笔记1-安装与基础命令

docker的用途&#xff1a; 可以把应用程序代码及运行依赖环境打包成镜像&#xff0c;作为交付介质&#xff0c;在各种环境部署。可以将镜像&#xff08;image&#xff09;启动成容器&#xff08;container&#xff09;&#xff0c;并提供多容器的生命周期进行管理&#xff08;…

iPad绘画之旅:从小白到文创手账设计的萌系简笔画探索

&#x1f482; 个人网站:【 海拥】【神级代码资源网站】【办公神器】&#x1f91f; 基于Web端打造的&#xff1a;&#x1f449;轻量化工具创作平台&#x1f485; 想寻找共同学习交流的小伙伴&#xff0c;请点击【全栈技术交流群】 iPad的出现&#xff0c;不仅改变了我们对电子设…

孔夫子二手书采集

文章目录 项目演示软件采集单本数据网页搜索数据对比 使用场景概述部分核心逻辑Vb工程图数据导入与读取下拉框选择参数设置线程 使用方法下载软件授权导入文件预览处理后的数据 项目结构附件说明 项目演示 操作视频详见演示视频&#xff0c;以下为图文演示 软件采集单本数据 …

mac传输文件到windows

前言 由于mac系统与windows系统文件格式不同&#xff0c;通过U盘进行文件拷贝时&#xff0c;导致无法拷贝。 几种文件格式说明&#xff1a; NTFS 文件格式&#xff1a;只适用于 windows 系统&#xff0c;不适用于 mac 系统&#xff1b; APFS 文件格式&#xff1a;mac 系统格式…

云HIS源码 云HIS解决方案 支持医保功能

云HIS系统重建统一的信息架构体系&#xff0c;重构管理服务流程&#xff0c;重造病人服务环境&#xff0c;向不同类型的医疗机构提供SaaS化HIS服务解决方案。 云HIS作为基于云计算的B/S构架的HIS系统&#xff0c;为基层医疗机构&#xff08;包括诊所、社区卫生服务中心、乡镇卫…

Anylogic Pro 8.8.x for Mac / for Linux Crack

Digital twins – a step towards a digital enterprise AnyLogic是唯一一个支持创建模拟模型的方法的模拟建模工具&#xff1a;面向过程&#xff08;离散事件&#xff09;、系统动态和代理&#xff0c;以及它们的任何组合。AnyLogic提供的建模语言的独特性、灵活性和强大性使…

IP应用场景的规划

IP地址作为互联网通信的基石&#xff0c;在现代社会中扮演着至关重要的角色。本文将深入探讨IP地址在不同应用场景中的规划与拓展&#xff0c;探讨其在网络通信、安全、商业、医疗和智能城市等领域的关键作用与未来发展趋势。 IP地址的基本原理 IP地址是分配给网络上设备的数…

基于flask和echarts的新冠疫情实时监控系统源码+数据库,后端基于python的flask框架,前端主要是echarts

介绍 基于flask和echarts的新冠疫情实时监控系统 软件架构 后端基于python的flask框架&#xff0c;前端主要是echarts 安装教程 下载到本地&#xff0c;在python相应环境下运行app.py,flask项目部署请自行完成 使用说明 flaskProject文件夹中 app.py是flask项目主运行文…

自动驾驶中的“雷达”

自动驾驶中有好几种雷达&#xff0c;新手可能会混淆&#xff0c;这里统一介绍一下它们。 首先&#xff0c;所有雷达的原理都是发射波&#xff0c;接收回波&#xff08;可能是声波或电磁波&#xff09;&#xff0c;并通过发射和接收的时间差以及波的速度计算距离。只不过发射的…

普中STM32-PZ6806L开发板(烧录方式)

前言 有两种方式, 串口烧录和STLink方式烧录;串口烧录 步骤 开发板USB转串口CH340驱动板接线到USB连接PC使用自带工具普中自动下载软件.exe烧录程序到开发板 ST Link方式 这种方式需要另外进行供电&#xff0c; 我买的如下&#xff0c;当年用于调试STM8的&#xff0c;也可…

vsetvli/vsetivli/vsetvl

转载自&#xff1a;【《RISC-V “V“ Vector Extension Version 1.0》阅读笔记】_risc v的rvv-CSDN博客 上述指令的作用&#xff1a;快速配置 vl 和 vtype 中的值以匹配应用程序需求&#xff1b; vset{i}vl{i} 指令根据参数设置 vtype 和 vl CSR&#xff0c;并将 vl 的新值写入…

搭建Nginx文件下载站点

一、下载Nginx 首先&#xff0c;确保你的服务器上已经安装了Nginx&#xff0c;使用编译安装&#xff0c;下载最新版Nginx。 wget https://nginx.org/download/nginx-1.25.3.tar.gz tar -xf nginx-1.25.3.tar.gz二、安装Fancyindex和Nginx-Fancyindex-Theme模块 # 下载Fancyin…

基于VUE3+Layui从头搭建通用后台管理系统(前端篇)十七:演示功能模块相关功能实现

一、本章内容 本章实现常见业务功能,包括文章管理、商品管理、订单管理、会员管理等功能。 1. 详细课程地址: https://edu.csdn.net/course/detail/38183 2. 源码下载地址: 点击下载 二、界面预览 三、开发视频 3.1 B站视频地址:

3. 结构型模式 - 组合模式

亦称&#xff1a; 对象树、Object Tree、Composite 意图 组合模式是一种结构型设计模式&#xff0c; 你可以使用它将对象组合成树状结构&#xff0c; 并且能像使用独立对象一样使用它们 问题 如果应用的核心模型能用树状结构表示&#xff0c; 在应用中使用组合模式才有价值。 …

实习知识整理9: 点击直接购买按钮后,跳转到确认订单页面

1. 为按钮绑定事件 <button id"addCartButton">加入购物车</button><br/> $("#buyButton").click(function () {if ( ! loginUser) {// 如何将商品信息传递到后台&#xff0c;后台能够将内容在新的订单页面显示$("#buyItemForm&quo…

【Jmeter、postman、python 三大主流技术如何操作数据库?】

前言 1、前言 只要是做测试工作的&#xff0c;必然会接触到数据库&#xff0c;数据库在工作中的主要应用场景包括但不限于以下&#xff1a; 功能测试中&#xff0c;涉及数据展示功能&#xff0c;需查库校验数据正确及完整性&#xff1b;例如商品搜索功能 自动化测试或性能测试…

【问题系列】同时管理多版本node方案

目录 一、问题描述 二、解决方案 三、详细步骤 3.1 安装NVM&#xff1a; 3.2 运行NVM 3.3 安装Node.js 3.4 切换Node.js版本 3.5 验证安装&#xff1a; 四、拓展 4.1 设置默认 Node.js 版本 4.2 列出已安装的 Node.js 版本 4.3 其他命令介绍 一、问题描述 需要运行…

华为配置策略路由(基于IP地址)示例

组网需求 如图1所示&#xff0c;汇聚层Switch做三层转发设备&#xff0c;接入层设备LSW做用户网关&#xff0c;接入层LSW和汇聚层Switch之间路由可达。汇聚层Switch通过两条链路连接到两个核心路由器上&#xff0c;一条是高速链路&#xff0c;网关为10.1.20.1/24&#xff1b;另…

软文推广的好处居然有这些,媒介盒子分享

中小企业想要宣传品牌的话可以怎么做&#xff1f;媒介盒子首推软文推广&#xff0c;因为软文推广相比于其他的推广方式&#xff0c;带来的效果更加明显&#xff0c;而且在前期投入的资金相比于其他营销方式的投入是非常少的&#xff0c;对于中小企业推广来说&#xff0c;软文推…

2024 年 22 款顶级免费数据恢复软件比较 [Windows 和 Mac]

适用于 Windows 和 Mac 用户的最佳数据恢复软件下载列表和比较&#xff0c;可快速恢复丢失的数据、已删除的文件、照片或格式化的分区数据&#xff1a; 数据恢复软件是一种从任何存储介质恢复丢失文件的应用程序。它可以恢复由于病毒攻击、硬盘故障或任何其他原因而意外删除或…