论文速读:简化目标检测的无源域适应-有效的自我训练策略和性能洞察(ECCV2024)

中文标题:简化目标检测的无源域适应:有效的自我训练策略和性能洞察

原文标题:Simplifying Source-Free Domain Adaptation for Object Detection: Effective Self-Training Strategies and Performance Insights

此篇文章为论文速读,具体论文精读可以看这一篇:ECCV2024新鲜出炉!简化无源域适应的目标检测-有效的自我训练策略和性能洞察-CSDN博客文章浏览阅读441次。在这项研究中,我们研究和评估了简单而有效的无源域自适应目标检测方法。在展示了批量归一化的重要性和AdaBN的有效性之后,我们提出了一种无源无偏教师(SF-UT),在Foggy-Cityscapes上取得了最先进的性能,在其他基准测试上取得了具有竞争力的结果。https://blog.csdn.net/m0_63294504/article/details/143504736

1Abstract

本文重点关注计算机视觉中目标检测的无源域适应。这项任务非常具有挑战性并且具有很大的实际意义,因为获取每个新领域的带注释数据集的成本很高。最近的研究针对无源目标检测(SFOD)提出了各种各样的解决方案,其中大多数是具有不同特征对齐、正则化和伪标签选择策略的师生架构的变体。我们的工作研究了在几种适应场景中与更复杂的 SFOD 方法相比更简单的方法及其性能。我们强调了检测器主干中批量归一化层的重要性,并表明仅调整批量统计数据就能使模型成为 SFOD 的强大基线。我们在无源设置中针对 Mean Teacher 提出具有强弱增强(strong-weak augmentation)的简单扩展,即无源无偏教师 (SF-UT),并表明它实际上优于以前的大多数 SFOD 方法。此外我们还展示了一种更简单的策略,即在一组固定的伪标签上进行训练,可以实现与更复杂的师生相互学习相似的性能,提高计算效率的同时并减轻师生崩溃的主要问题。我们使用(Foggy)Cityscapes、Sim10k 和 KITTI 等基准驱动数据集对多项适应任务进行了实验,与 SFOD 的最新技术相比,在 Cityscapes→FoggyCityscapes 上实现了 4.7% AP50 的显著改进。

2、Introduction

2.1、无源域适应的定义与价值

领域适应旨在将从源领域获取的知识转移到具有一定相关性但数据分布不同的目标领域,其特征是领域转移。无源域适应 (SFDA) 解决了一个更具挑战性的场景,即只能访问来自源域的预训练模型和来自目标域的未标记数据。这与标准的无监督域适应 (UDA) 形成鲜明对比,后者可以使用标记的源数据。在难以获得目标域数据标签,以及由于隐私问题、存储限制或部署约束而限制源数据使用的情况下,SFDA变得特别有价值。我们关注的是无源目标检测(source - free Object Detection, SFOD),其目的是在不访问源数据的情况下,将在源域上训练的检测器适应于未标记的目标域。

2.2、目标检测

目标检测是在图像中同时定位和分类多个目标的任务,是计算机视觉的一个主要领域,具有许多实际应用。虽然基于深度学习的目标检测器近年来取得了显著的成功,但它们的性能在存在域转移的情况下往往会出现显著的下降。目标检测的领域适应明显比分类更具挑战性,因为它不仅需要准确的分类,还需要精确的定位。为了应对这一挑战,人们提出了各种无监督域适应的方法来解决目标检测任务(UDAOD)。

2.3、无源域适应目标检测

尽管具有实际意义,但 SFOD 受到的关注相对较少。当存在显著的域转移并且源数据不可访问时,该任务变得特别艰巨,阻止了域转移的显式减少。大多数提出的 SFOD 方法采用 Mean Teacher (MT) 框架,在置信伪标签上进行自我训练。Mean Teacher 最初是为半监督学习(semi-supervised learning,SSL)引入的,是 temporal ensembling 的一种变体,其中知识从教师网络提取到学生网络。学生从教师那里接收伪标签,并通过标准的基于梯度的学习进行更新,而老师则通过先前学生权重的指数移动平均值(EMA)逐渐更新。这种方法旨在提高对未标记目标数据的不准确和噪声预测的鲁棒性。在完全无标签的师生架构训练中,一个主要问题是教师和学生在训练过程中的崩溃。具体来说,每当教师在目标域的表现开始下降时,就会导致学生的进一步下降,进而导致两个网络中的表现崩溃。为了缓解这一挑战,有研究将教师更新的周期增加到2500步(没有指定更新速率,也没有指定如何设置更新周期)。PETS 建议教师和学生定期交换,并增加一名更新较慢的教师,以有效防止灾难性崩溃;然而,这增加了整个体系结构的复杂性,并且需要根据经验设置交换周期。

2.4、本文提出的方法

在这项工作中,我们证明了与前面提到的更复杂的 SFOD 方法相比,一种更简单的 SFOD 方法的有效性。首先,我们强调批量归一化(BN)层的重要性,使用更现代的主干 VGG16-BN(带有 BN 层)而不是之前工作中使用的 VGG16 来展示它们对适应的影响。具体来说,仅通过调整未标记目标训练数据的批量统计数据(一种称为 AdaBN 的技术)被证明是 SFOD 的强大基线。其次,我们提出将无偏见教师(UT)直接扩展到无源设置,称为无源无偏见教师(SF-UT)。最后,我们探索了 SFOD 自我训练策略的各种配置(见图 1)。这包括不同的教师 EMA 更新率、弱强增强的使用以及批量统计数据的适应。我们研究了教师更新率 α 的极端情况,范围从 α = 0(相当于仅使用未标记数据的伪标签训练(Pseudo-Label training)的无源版本,SF-PL)到 α = 1(对应于固定的教师,即在源训练模型产生的固定初始伪标签集上进行训练)。当 SF-PL 与弱强增强相结合时,它相当于 FixMatch的无源版本 (SF-FM) 。对于后者 α = 1 的情况(即固定伪标签),我们将它们分别称为Fixed SF-PL 和Fixed SF-FM,分别用于有和没有弱强增强的情况。我们证明了 AdaBN + Fixed SF-FM 方法,使用由预先使用 AdaBN 适应目标域的源模型生成的固定初始伪标签,其效果几乎与适用于源的成熟的 Unbiased Teacher 一样有效(本文SF-UT)。我们提出的方法 AdaBN + Fixed SF-FM 具有稳定训练的优点,因为它在教师和学生之间没有反馈循环,同时实现了类似的良好性能。

图1:具有不同教师更新率α和使用弱-强增强的SFOD的无源平均教师配置概述。α = 0(即教师=学生)的极端情况分别对应于(无源)Pseudo-Label 和FixMatch。α = 1可以表示为将教师冻结并在一组固定的伪标签上进行训练。令人惊讶的是,AdaBN之后的固定伪标签训练产生的效果与更复杂的师生相互学习相似,并对最先进的SFOD方法提出了挑战。

2.5、本文贡献

1我们强调了批归一化层的重要性,并证明了批统计适应无源目标检测任务的有效性。

2我们介绍了一个无源扩展的无偏教师(SF-UT)。

3我们提出了一种新颖的轻量级策略,将AdaBN与使用弱-强增强的一组固定伪标签的训练相结合(AdaBN + Fixed SF-FixMatch)。

4我们在三种 SFOD 适应场景中进行了实验:恶劣天气适应(Cityscapes→Foggy-Cityscapes)、跨摄像机适应(KITTI→Cityscapes)和合成到真实的适应(SIM10k→Cityscapes)。与更复杂的最先进 SFOD 方法相比,我们证明了 SF-UT 具有优越或接近的性能。此外,简单的AdaBN+Fixed SF-FixMatch策略也取得了有竞争力的结果,并避免了师生方法中常见的崩溃。

3、Related work

3.1、UDA for Object Detection (UDAOD)

1)领域自适应的目的是将学习到的知识从源领域转移到目标领域。在无监督域自适应(Unsupervised Domain Adaptation,UDA)中,源域中有标记的数据可用,目标域中只有未标记的样本可用。大多数UDA方法共享的主要原则是在对源数据联合执行有监督训练的同时显式地减少域移位。域差异的减少可以通过匹配源和目标的特征分布、最优传输或通过核学习或域对抗训练来学习域不变特征来实现。

2)在用于目标检测任务(UDAOD)的 UDA 中,一种流行的方法是通过域对抗训练在图像或实例级别对齐源域和目标域之间的特征,包括 DA-Faster 、SW-Faster、SSA-DA、ICR-CCR、SGA-S、ATF、MeGACDA 和 CST-DA。还研究了在目标域上使用伪标签的方法。例如,NL 设计了一种用于目标检测的鲁棒噪声训练方案,该方案在从目标域获取具有噪声的边界框和标签作为伪真实值进行训练。MTOR、UMT 和 AT 采用 Mean Teacher (MT) 架构。SAPNet利用了注意力机制来关注最具区别性的特征。

3.2、Source-Free Object Detection (SFOD)

无源目标检测(SFOD)由于无法在没有源域数据的情况下显式地减少域差异而具有挑战性。最近,已经提出了几种方法来解决这个问题。由于只有未标记的目标数据可用,他们采用对目标样本进行伪标签的自我训练策略。SED 采用自熵下降策略获得合适的伪标签置信阈值。HCL 探索了基于记忆的学习,针对实例区分和类别区分提出了历史对比学习方法。最近的方法基于 Mean Teacher 范式,并结合各种附加对齐、伪标签选择或正则化策略。SOAP  使用对抗性学习,通过用特定领域的噪声扰乱目标图像来转移检测器。同样,LODS 通过增强每个目标域图像的风格,并利用原始图像与增强图像之间的风格程度差异来指导自适应,从而学习域转移。A2SFOD 提出了一种分四个阶段的方法,根据方差标准对目标数据进行划分,并通过对抗性训练对其特征进行对齐。IRG 使用图卷积网络增加了基于学习实例关系的图引导约束损失。ESOD 使用熵最小化来寻找最优置信阈值。在RPL 中,MT 架构利用了类别感知的伪标签自适应阈值和定位感知的伪标签分配策略。Chen等人为空间对比损失项中使用的低置信度提案引入了第二个置信度阈值。最后,PETS 通过定期交换教师和学生,以及增加一个更新较慢的动态教师来稳定训练,解决了师生相互学习崩溃的问题。

3.3、Self-training

1对置信伪标签(PL)进行自我训练是半监督学习(SSL)中的一种有效技术。对未标记数据的置信预测会被当作伪标签,并添加到下一轮训练的标记数据中。FixMatch 提出利用弱-强增强,并使用来自弱增强输入的得到伪标签作为强增强输入的监督目标。

2Mean Teacher (MT)是 temporal ensembling 的变体,其中知识通过一致性损失或伪标签策略从教师网络中提取到学生网络中。学生通过标准的梯度学习进行更新,而教师通过先前学生权重的指数移动平均值(EMA)逐渐更新,从而得到先前学生迭代的集合。该方法旨在提高对未标记目标数据的不准确和噪声预测的鲁棒性。与之前维持保持EMA 的工作不同,权重 EMA 允许更短的更新周期,因为预测每个周期仅更改一次,而权重每一步都会更改。

3Unbiased Teacher (UT)提出了一种弱-强增强的Mean Teacher算法,用于半监督目标检测。经过一个纯源训练阶段后,教师接受弱增强的目标数据输入,生成伪标签来训练接受强增强输入的学生。 Adaptive Teacher 将UT扩展到无监督域自适应,此外它采用了对抗性学习,在学生网络中结合了一个鉴别器来对齐两个领域的图像级特征。

4、Benchmark results

在本节中,我们将本文提出的 SF-UT 与 UDAOD 和 SFOD 的各种最先进的方法进行比较。三个适应任务的结果显示在表 3、表 4 和表 5 中。我们还根据论文和可用代码指出了每种方法的主干。请注意对于 VGG16 主干,作者并不总是指出 BN 的存在。

在所有比较的 SFOD 方法中,SF-UT 在 Cityscapes→Foggy 上表现出最好的性能,mAP 为 45.0%,大大优于之前最先进的 RPL。这部分归功于 VGG16-BN 主干网的优越性。因此,我们还对之前方法中使用的 VGG16 主干进行了实验。在这种情况下,SF-UT 达到 39.2 mAP,仍然接近最先进的水平。然而SF-UT 要简单得多,并且不包含其他更复杂方法中使用的正则化、对齐或伪标签增强技术。

5、Conclusion

在这项研究中,我们研究和评估了简单而有效的无源域自适应目标检测方法。在展示了批量归一化的重要性和AdaBN的有效性之后,我们提出了一种无源无偏教师(SF-UT),在Foggy-Cityscapes上取得了最先进的性能,在其他基准测试上取得了具有竞争力的结果。此外,我们引入了一种简单的策略,包括在批量统计适应(AdaBN + fixed SF-FM)之后对一组固定的伪标签进行强增强训练,也产生了令人满意的性能,并显著减轻了自训练中的崩溃问题。 总的来说,我们展示了如何以更简单的方法超越以前复杂得多的SFOD方法。

许多现代架构,如ConvNeXt或Transformers,都支持GroupNorm或LayerNorm。据我们所知,GN和LN层对域适应的适应尚未被探索,并且是一个有趣的研究视角。作为未来工作的一部分,我们还考虑评估各种不同的骨干和检测器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/466555.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FFmpeg 4.3 音视频-多路H265监控录放C++开发十. 多线程控制帧率。循环播放,QT connect 细节,

在前面,我们总结一下前面的代码。 在 FactoryModeForAVFrameShowSDL 构造函数中 init SDL。 通过 QT timerevent机制,通过startTimer(10);每隔10ms,就会调用timerEvent事件。 在timerEvent事件中,真正的去 读取数据&#xff0c…

企业文件加密要怎么做?好用的10款企业文件加密软件排行榜!

在现代信息化的工作环境中,企业数据安全面临着越来越多的威胁。尤其是当涉及到敏感文件和商业机密时,如何保护这些数据不被泄露或遭受恶意攻击显得尤为重要。企业文件加密成为了保护企业信息安全的关键手段。本文将探讨如何进行企业文件加密,…

20241107给野火LubanCat1-BTB刷Ubuntu的预编译固件并点亮USB接口的热像仪AT600

20241107给野火LubanCat1-BTB刷Ubuntu的预编译固件并点亮USB接口的热像仪AT600 2024/11/7 20:08 缘起:需要使用RK3566的linux/Buildroot系统。 将 鲁班猫的 云盘资料下载之后,发现里面没有Buildroot的预编译固件。 火速联系 淘宝客服!转技术支…

VMware没有卸载干净,安装后ping不通

目录 1.问题 2.问题分析 3. 解决办法 🍓 STEP1:卸载VMware 🍈 STEP2:services.msc设置 🍒STEP3:安装everything删除所有与vmware相关的文件 🍑STEP4:使用CCleaner清理修复注册…

【科普】简述机器学习和深度学习及其相关的算法

文章目录 机器学习1. 基本概念2. 机器学习的分类3. 机器学习的常用方法4. 应用领域5. 挑战与未来6. 未来趋势 机器学习算法 深度学习1.深度学习的基本概念2.深度学习的主要架构3.深度学习的应用4.深度学习的挑战 深度学习算法 机器学习 机器学习是人工智能的一个重要分支&…

HCIP--3实验- 链路聚合,VLAN间通讯,Super VLAN,MSTP,VRRPip配置,静态路由,环回,缺省,空接口,NAT

学习目标: 链路聚合VLAN间通讯Super VLANMSTPVRRPip配置,静态路由,环回,缺省,空接口NAT 学习内容: 实验拓扑实验需求实验需求分析实验配置内容 (每一个设备的每一步操作)实验结果验证 1.实验拓扑 搭建 …

Zabbix监控架构

目录 1. Zabbix监控架构-CS架构 2. Zabbix极速上手指南 主机规划 2.1 部署ngxphp环境并测试 检查安装结果 2.2 部署数据库 2.3 编译安装zabbix-server服务端及后续配置 2.4 部署前端代码代码进行访问 前端的配置文件(连接数据库与主机名等信息) 2.5 欢迎来到zabbix 2…

【CentOS】中的Firewalld:全面介绍与实战应用(上)

🐇明明跟你说过:个人主页 🏅个人专栏:《Linux :从菜鸟到飞鸟的逆袭》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、iptables 时代 2、firewalld 时代 3、 从 ipt…

人工智能未来前景好不好?

人工智能(AI)正以前所未有的速度改变着我们的世界。随着技术的不断进步,AI不仅在各行各业中扮演着越来越重要的角色,也为求职者和职业发展带来了广阔的机会。那么,人工智能未来的前景如何? 1 高增长行业 人…

湘潭大学软件工程专业选修 SOA 期末考试复习(二)

文章目录 回顾序言第一章课后题填空选择简答 第二章课后题填空选择编程 计划第三章课后题填空选择简答编程 第四章课后题填空选择简答编程 第五章课后题填空选择简答编程 第六章课后题说明 第七章课后题填空选择简答编程 第八章课后题填空选择简答编程 第九章课后题填空选择简答…

JVM垃圾回收详解

前言 当需要排查各种内存溢出问题、当垃圾收集成为系统达到更高并发的瓶颈时,我们就需要对这些“自动化”的技术实施必要的监控和调节。 堆空间的基本结构 Java 的自动内存管理主要是针对对象内存的回收和对象内存的分配。同时,Java 自动内存管理最核…

Hive 操作基础(进阶篇✌️)

Hive 进阶操作 分区表 创建分区表 create table score_part(字段名 字段类型,字段名 字段类型 )partitioned by (分区字段 分区类型) row format delimited fields terminated by \t; 创建单极分区表 注意: 分区的列名不能和数据列名相同.分区列会当做虚拟列出现在数据列…

【Kafka】Windows+KRaft部署指南

【Kafka】WindowsKRaft部署指南 摘要本地环境说明官网快速开始修改config/kraft/server.properties初始化数据存储目录启动 测试创建topic创建生产者创建消费者 FAQ输入行太长。命令语法不正确。问题描述解决方案 参考资料 摘要 Kafka是一种高吞吐量的分布式发布订阅消息系统&…

Docker-软件容器平台

一、容器 1、什么是容器 容器就是将软件打包成标准化单元,以用于开发、交付和部署 容器镜像是轻量的、可执行的独立软件包 ,包含软件运行所需的所有内容:代码、运行时环境、系统工具、系统库和设置。容器化软件适用于基于 Linux 和 Windows…

OSS和FastDFS的区别

FastDFS: FastDFS 是一种开源的轻量级分布式文件系统,基于HTTP协议实现。具有高扩展性、高可用性和高稳定性。它解决了大容量文件存储和高效访问的问题,适合作为大容量文件的存储服务器。FastDFS 通过文件系统集群,使得用户可以将…

分离编译(介绍,解决“类模板定义和声明不在同一文件导致链接错误“的问题),类模板实例化原理,

目录 分离编译 介绍 问题代码示例 代码 说明 预处理 编译 链接 类模板实例化原理 总结 解决方法 显式实例化 模板的声明和定义放在一个头文件 分离编译 介绍 分离编译是一种编程技术 允许将程序代码分割成多个文件,每个文件可以独立地编译成目标文件…

云计算答案

情境一习题练习 一、选择题 1、在虚拟机VMware软件中实现联网过程,图中箭头所指的网络连接方式与下列哪个相关( C )。 A.仅主机模式 B.桥接 C.NAT D.嫁接 2、请问下图这个虚拟化架构属于什么类型( A …

如何做好多项目进度管理

在同时管理多个项目时,重要的是要确保每个项目都能按时、按质完成。有效的时间管理、资源优化配置、持续的沟通和使用专业工具是关键要素。这些元素有助于维护项目的整体质量和效率,确保所有项目成员的责任和期望都明确无误。本文将深入探讨如何通过实践…

如何在vscode中安装git详细新手教程

一、安装git后点击vscode中的设置 今天教大家如何在VScode中编写代码后提交到git仓库,如果我们不想切换到git的命令行窗口,可以在VScode中配置git,然后就可以很方便快捷的把代码提交到仓库中。 二、在输入框中输入 git.path ,再点…

使用Docker Compose构建多容器应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 使用Docker Compose构建多容器应用 引言 Docker Compose 简介 安装 Docker Compose 创建基本配置 运行多容器应用 查看服务状态 …