R-YOLO

Abstract

提出了一个框架,名为R-YOLO,不需要在恶劣天气下进行注释。考虑到正常天气图像和不利天气图像之间的分布差距,我们的框架由图像翻译网络(QTNet)和特征校准网络(FCNet)组成,用于逐步使正常天气域适应不利天气域。具体来说,我们使用简单而有效的QTNet来生成图像,这些图像继承了正常天气域中的注释,并对两个域之间的间隙进行插值。然后,在FCNet中,我们提出了两种基于对抗性学习的特征校准模块,以局部到全局的方式有效地对其两个领域中的特征表示。

Introduction

基于UDA的方法将知识从源域转移到目标域,以弥补域差距,提高泛化能力。用于对象检测器的最先进的(SOTA)UDA方法主要依赖于对抗性学习来在全局级别和实例级别对齐源图像和目标图像的表示。然而,在一级物体探测器上使用上述方法的问题有两个:

  • 全局级别的特征对齐容易发生负迁移,使得UDA模型甚至表现得比模型在源域上更差
  • 其次,主要针对受益于区域建议网络的两级检测器设计了实例级特征自适应方法。
    提出了一个R-YOLO网络,包含QTNet(图像翻译网络)和FCNet(特征对齐网络)来逐步减少两个域之间的差异。我们声称,作为预处理步骤,不需要在源域和目标域之间进行严格的翻译,我们只能将图像生成为两个域之间的插值,以指导对抗性学习。因此,我们设计了一个简单而有效的网络来学习残差图像,以在源域和目标域之间进行相互图像翻译。与现有的图像翻译/恢复方法相比,我们的QTNet有三个主要优势:
  • 它生成具有相同场景但位于不同域的跨域图像,有利于以下基于对抗性学习的特征对齐
  • 它不需要对朦胧和雨天图像的先验知识,因此可以统一用于不利图像的翻译任务;
  • 易于训练以避免基于GAN的方法的训练问题。
    在FCNet中提出了两种对抗性学习模块:
  • 逐像素特征对齐模块(PFC)
  • 全局特征对其模块(GFC)
    PFC模块以像素方式对齐低级别特征,以增强前景对象和背景的跨域,这对于降低后续全局特征对齐中的负迁移风险非常重要。
    GFC模块使用多尺度特征对抗性训练来全局消除不同域之间特征图上的多样性,并增强对象类别对齐。

主要贡献如下:

  • 我们提出了一个统一的一阶段目标检测器训练框架,即R-YOLO,在恶劣天气下,不使用不利领域注释。R-YOLO包含QTNet和FCNet适用于所有YOLO系列检测器,且有着相同的推理速度。
  • 设计了一种简单且有效的网络来相互转化正常图像和不利图像以生成两个域之间的插值。我们还建议使用两种对抗性学习模块来逐步减少特征水平上的领域差异。

Method

在这里插入图片描述

我们有两个主要目标来提高YOLO在恶劣环境下的性能:

  • 在不引入基于GAN的方法的训练问题的情况下,设计一个简单而有效的图像翻译网络来进行数据扩充
  • 提出一种为一级检测器量身定制的特征对准网络,避免触发负转移

QTNet

在这里插入图片描述
我们的QTNet的目的是设计一个适用于朦胧和雨天图像的统一网络,因此在图像翻译过程中无法探索任何特定于天气的信息或先验信息。受残差图像最近在图像恢复和增强任务中的成功启发,如图像去噪[45]、[46]、[47]和图像阴影去除[48]、[49]、[50],我们设计了带有残差模块的QTNet,以直接缩小从输入到输出的映射范围,使学习过程更容易。我们使用简单的自动编码器作为主干,并添加跳过连接路径,将多层编码器特征融合到解码器特征中。为了改进网络训练过程,我们在自动编码器的输入和输出之间添加了跳跃连接,使其能够学习负残差映射。
具体来说,使用源域和目标域图像XS、XT,我们可以获得合成目标图像,XST。然后,QTNet可以训练成对的XS、XST图像,如果XS被用作输入图像,则XST被用作GT图像,反之亦然。
我们使用多尺度重建损失来监督图像翻译后的语义保存网络训练,可以定义如下:
在这里插入图片描述
xi是输入图像,QTNet(xi)是输出图像,xiG是xi对应的GT图像。d是损失强制执行的总层数,λi是对应每层的权重参数。注意QTNet训练的都是合成图像,一旦经过训练,就可以被用来翻译图像。我们还使用感知损失来生成逼真图像。具体来说,给定QTNet的输出图像及其相应的GT图像,我们使用预训练的网络,例如在ImageNet上预训练的VGG,来提取上述两幅图像的特征。然后,我们使用这两个特征之间的MSE损失来评估生成图像的真实性,从而感知损失Lp可以指导高真实性图像生成的QTNet训练,可以定义如下:
在这里插入图片描述
训练QTNet的损失如下:
在这里插入图片描述
生成的图像的重要性有三个方面,这有利于以下特征自适应步骤:

  • 我们可以在目标域中获得大量的注释样本
  • 生成的图像可以看作是源域和目标域之间的插值样本,它驱动源域决策边界适应目标域
  • 对于大量的跨域图像(具有相同场景但在不同域中的图像),我们可以在不考虑语义不一致问题的情况下对齐两个域中的特征,从而避免负迁移。

FCNet(特征对齐网络)

得益于生成的跨域图像,我们在FCNet中进行了基于对抗性学习的特征对齐,其关键是学习鉴别器无法识别的常见特征分布。为此,我们提出了两种特征校准模块,PFC模块和GFC模块,以消除两个领域在特征水平上的差异。FCNet建立在YOLO主干上,而不改变YOLO网络结构。我们唯一做的事就是添加两种鉴别器和对应损失函数来限制特征学习。

PFC
我们发现,与正常天气相比,恶劣天气下的物体细节和背景之间存在巨大差异。具体来说,悬浮的微小颗粒或快速下落的雨滴首先影响前景对象和背景的颜色、边缘和纹理等低级特征,然后导致对象的草图和语义等高级特征的差异。因此,有必要且相对容易地将每个像素的低水平特征校准为对不利天气具有鲁棒性的共同分布。
在这里插入图片描述
Dp是像素特征鉴别器,在本文中是简单的Conv+sigmoid。Gp(xi)j表示从Gp(xi)获得的特征图中的第j个位置的特征向量,H和W是Gp(xi)的高度和宽度。对于QTNet生成的跨域图像,可以严格保证源图像和目标图像之间的语义一致性。然后,在低级别特征图上实施PFC损失可以以像素方式对齐低级别特征,以有效地增强关于前景对象和背景细节的跨域特征。然后,在低级别特征图上实施PFC损失可以以像素方式对齐低级别特征,以有效地增强关于前景对象和背景细节的跨域特征。

GFC Module
一旦像素级低级别特征被校准,就更容易通过多尺度GFC模块学习图像级对齐的特征表示,例如图像风格、全局亮度和暗度。根据YOLO结构(以YOLOv3为例),其中多尺度特征图被提取并发送到用于收集不同尺度特征图的颈部结构,我们在多尺度特征上强制执行GFC模块。多尺度GFC损失定义如下:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/249690.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数睿】数睿常见问题处理

连接器请求地址修改 cat /home/sdata2/tomcat/bin/setenv.sh修改里面的 SYSTEM_URL 为数睿服务实际访问地址 如图所示 连接器执行 异常日志 2024-01-23 18:01:49,586 (conf-file-poller-0) [ERROR - org.apache.flume.node.PollingPropertiesFileConfigurationProvider$Fil…

全链路压测的关键点是什么?

全链路压测是一种重要的性能测试方法,用于评估应用程序或系统在真实生产环境下的性能表现。通过模拟真实用户行为和流量,全链路压测能够全面评估系统在不同负载下的稳定性和性能表现。本文将介绍全链路压测的关键点,以帮助企业更好地理解和应…

Redis核心技术与实战【学习笔记】 - 10.浅谈CPU架构对Redis性能的影响

概述 可能很多人都认为 Redis 和 CPU 的关系简单,Redis 的线程在 CPU 上运行,CPU 快 Reids 处理请求的速度也很快。 其实,这种认知是片面的,CPU 的多核架构及多 CPU 结构,也会影响到 Redis 的性能。如果不了解 CPU 对…

【目标检测】对DETR的简单理解

【目标检测】对DETR的简单理解 文章目录 【目标检测】对DETR的简单理解1. Abs2. Intro3. Method3.1 模型结构3.2 Loss 4. Exp5. Discussion5.1 二分匹配5.2 注意力机制5.3 方法存在的问题 6. Conclusion参考 1. Abs 两句话概括: 第一个真正意义上的端到端检测器最…

实习日志10

1.用户信息 1.1.在用户管理中编辑用户信息 1.2.绑定公司id 1.3.显示在页面 2.修改识别逻辑 2.1.分析 先识别,再判断,清空键把识别结果清空 2.2.写码 修改了发票识别逻辑,略... 3.接高拍仪 3.1.js引入报错 分析: 遇到的错误…

MySQL数据库基础第一篇(SQL通用语法与分类)

文章目录 一、SQL通用语法二、SQL分类三、DDL语句四、DML语句1.案例代码2.读出结果 五、DQL语句1.DQL-基本查询2.DQL-条件查询3.DQL-聚合函数4.DQL-分组查询5.DQL-排序查询6.DQL-分页查询7.DQL语句-执行顺序1.案例代码2.读出结果 六、DCL语句1.DCL-管理用户2.DCL-权限控制1.案例…

鸿蒙开发-UI-页面路由

鸿蒙开发-UI-组件 鸿蒙开发-UI-组件2 鸿蒙开发-UI-组件3 鸿蒙开发-UI-气泡/菜单 文章目录 一、基本概念 二、页面跳转 1.router基本概念 2.使用场景 3.页面跳转参数传递 三、页面返回 1.普通页面返回 2.页面返回前增加一个询问框 1.系统默认询问框 2.自定义询问框 总…

【Mysql】数据库架构学习合集

目录 1. Mysql整体架构1-1. 连接层1-2. 服务层1-3. 存储引擎层1-4. 文件系统层 2. 一条sql语句的执行过程2-1. 数据库连接池的作用2-2. 查询sql的执行过程2-1. 写sql的执行过程 1. Mysql整体架构 客户端: 由各种语言编写的程序,负责与Mysql服务端进行网…

【安装记录】Chrono Engine安装记录

本文仅用于个人安装记录。 官方安装教程 https://api.projectchrono.org/8.0.0/tutorial_install_chrono.html Windows下安装 windows下安装就按照教程好了。采用cmake-gui进行配置,建议首次安装只安装核心模块。然后依此configure下irrlicht,sensor…

J-Link:STM32使用J-LINK烧录程序,其他MCU也通用

说明:本文记录使用J-LINK烧录STM32程序的过程。 1. J-LINK驱动、软件下载 1、首先拥有硬件J-Link烧录器。 2、安装J-Link驱动程序SEGGER 下载地址如下 https://www.segger.com 直接下载就可以了。 2.如何使用J-LINK向STM32烧写程序 1、安装好以后打开J-LINK Fl…

从零开始:CentOS系统下搭建DNS服务器的详细教程

前言 如果你希望在CentOS系统上建立自己的DNS服务器,那么这篇文章绝对是你不容错过的宝藏指南。我们提供了详尽的步骤和实用技巧,让你能够轻松完成搭建过程。从安装必要的软件到配置区域文件,我们都将一一为你呈现。无论你的身份是运维人员,还是程序员,抑或是对网络基础设…

【脑电信号处理与特征提取】P7-涂毅恒:运用机器学习技术和脑电进行大脑解码

运用机器学习技术和脑电进行大脑解码 科学研究中的大脑解码 比如2019年在Nature上一篇文章,来自UCSF的Chang院士的课题组,利用大脑活动解码语言,帮助一些患者恢复语言功能。 大脑解码的重要步骤 大脑解码最重要的两步就是信号采集和信号…

Coremail启动鸿蒙原生应用开发,打造全场景邮件办公新体验

1月18日,华为在深圳举行鸿蒙生态千帆启航仪式,Coremail出席仪式并与华为签署鸿蒙合作协议,宣布正式启动鸿蒙原生应用开发。作为首批拥抱鸿蒙的邮件领域伙伴,Coremail的加入标志着鸿蒙生态版图进一步完善。 Coremail是国内自建邮件…

浏览器——HTTP缓存机制与webpack打包优化

文章目录 概要强缓存定义开启 关闭强缓存协商缓存工作机制通过Last-Modified If-Modified-Since通过ETag If-None-Match 不使用缓存前端利用缓存机制,修改打包方案webpack 打包webpack 打包名称优化webpack 默认的hash 值webapck其他hash 类型配置webpack打包 web…

数据结构-内部排序

简介 排序(Sorting):将一个数据元素(或记录)的任意序列,重新排列成一个按关键字有序的序列 排序算法分为内部排序和外部排序 内部排序:在排序期间数据对象全部存放在内存的排序 外部排序&am…

MySQL-运维-主从复制

一、概述 二、原理 三、搭建 1、服务器准备 2、主库配置 (1)、修改配置文件/etc/my.cnf (2)、重启MySQL服务器 (3)、登录mysql,创建远程链接的账号,并授予主从复制权限 &#xff0…

3593 蓝桥杯 查找最大元素 简单

3593 蓝桥杯 查找最大元素 简单 // C风格解法1&#xff0c;通过率100%&#xff0c;多组数据处理样式//str "abcdefgfedcba" //abcdefg(max)fedcba//str "xxxxx" //x(max)x(max)x(max)x(max)x(max)#include<bits/stdc.h>const int N 1e2 10;char …

分类预测 | Matlab实现SCN-Adaboost随机配置网络模型SCN的Adaboost数据分类预测/故障识别

分类预测 | Matlab实现SCN-Adaboost随机配置网络模型SCN的Adaboost数据分类预测/故障识别 目录 分类预测 | Matlab实现SCN-Adaboost随机配置网络模型SCN的Adaboost数据分类预测/故障识别分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现SCN-Adaboost随机配置网…

vue——实现多行粘贴到table事件——技能提升

最近在写后台管理系统时&#xff0c;遇到一个需求&#xff0c;就是要从excel表格中复制多行内容&#xff0c;然后粘贴到后台系统中的table表格中。 如下图所示&#xff1a;一次性复制三行内容&#xff0c;光标放在红框中的第一个框中&#xff0c;然后按ctrlv粘贴事件&#xff0…

C#,桌面游戏编程,数独游戏(Sudoku Game)的算法与源代码

本文包括以下内容&#xff1a; &#xff08;1&#xff09;数独游戏的核心算法&#xff1b; &#xff08;2&#xff09;数独游戏核心算法的源代码&#xff1b; &#xff08;3&#xff09;数独游戏的部分题目样本&#xff1b; &#xff08;4&#xff09;适老版《数独》的设计原则…