无标签数据增强+高效注意力GAN:基于CARLA的夜间车辆检测精度跃升

目录

一、摘要

二、引言

三、框架

四、方法

生成合成夜间数据

昼夜图像风格转换

针对夜间图像的无标签数据增强技术

五、Coovally AI模型训练与应用平台

六、实验 

数据

图像风格转换

夜间车辆检测和分类

结论


screenshot_2025-03-07_16-18-40.png

论文题目:ENHANCING NIGHTTIME VEHICLE DETECTION WITH DAY-TO-NIGHT STYLE TRANSFER AND LABELING-FREE AUGMENTATION

论文链接:https://arxiv.org/pdf/2412.16478


一、摘要

现有的基于深度学习的物体检测模型在日间条件下表现良好,但在夜间却面临巨大挑战,这主要是因为这些模型主要是在日间图像上进行训练的。此外,使用夜间图像进行训练还带来了另一个挑战:即使是人类标注者也很难在弱光条件下准确标注物体。这一问题在交通应用中尤为突出,例如在夜间的乡村道路上检测车辆和其他感兴趣的物体,因为那里通常没有街道照明,车头灯可能会带来令人不快的眩光。本研究利用CARLA生成的合成数据进行从白天到黑夜的图像风格转换,引入了一个新颖的无标签数据增强框架,从而解决了这些难题。具体来说,该框架结合了高效注意力生成对抗网络(Efficient Attention Generative Adversarial Network)来实现从白天到夜晚的模式转换,并使用CARLA生成的合成夜间图像来帮助模型学习车辆前大灯的效果。为了评估所提出的框架的有效性,我们使用专门为农村夜间环境设计的增强数据集对YOLO11模型进行了微调,从而显著提高了夜间车辆检测能力。这种新方法简单而有效,提供了一种可扩展的解决方案,可用于在低能见度环境中增强基于人工智能的检测系统,并将物体检测模型的适用性扩展到更广泛的现实世界环境中。


二、引言

车辆检测在交通监控和事故管理中至关重要,尤其是在农村地区,夜间事故发生率远高于城市。然而,夜间检测面临突发挑战,如低照度、车灯灼光、复位差及路边摄像头的低分辨率等。现有的视觉方法主要依赖于车辆外观特征,在夜间效果良好,但夜间车灯成为唯一可用的特征,使检测变得困难。

针对这一问题,研究人员采用生成网络(GAN)和适应方法,利用日夜风格转换训练增强数据。例如,AugGAN、CycleGAN等技术在生成夜间图像时采取一致性一致性,提高检测性能。然而,这些方法难以准确模拟车灯光照效果,导致检测精度模型。

目前,部分研究尝试基于差分模型进行日夜照明,但仍无法恢复车灯照明。对此,提出了一种新方法:

(1)直接从日间图像生成带图像的夜间照明;

(2)采用CARLA模拟器精确建模车灯照明,生成代替真实的夜间数据集。

这种方法能够提高模型在农村夜间环境中的监控能力,为交通安全提供更可靠的技术支持。


三、框架

我们提出的框架(如图1所示)引入了一种新颖的无标记数据增强方法,利用CARLA生成的合成数据实现从白天到黑夜的逼真图像风格转换。该框架由两个主要部分组成:

图片1.png

  • 农村环境下的夜间合成数据生成:该组件利用CARLA模拟器生成合成夜间图像,其中包含逼真的头灯效果和不同的照明条件,正如从农村环境中的路边摄像头观察到的那样。CARLA模拟器是这一过程不可或缺的一部分,因为它可以忠实地模拟车辆在夜间的车头灯效果,有效地解决了现有人工智能模型的局限性,因为这些模型往往无法捕捉从白天到黑夜的转换过程中的车头灯效果。

  • 日夜风格转换过程:为了解决农村环境中夜间道路场景图像数据稀缺的问题,我们训练了一个CycleGAN模型来执行从白天到夜晚的风格转换。白天的图像使用最先进的YOLO11模型收集和处理,以进行车辆检测和分类。由此产生的注释直接映射到风格转换后的夜间图像上,从而无需额外的标注工作即可创建一个增强的夜间数据集。为了增强数据集的多样性和真实性,最终的增强数据集将人类标注的真实夜间弱光图像(44%)与样式转换图像(56%)结合在一起。该数据集随后被用于对YOLO11模型进行微调,并在真实世界的夜间测试数据集上与原始模型进行对比评估。

通过将逼真的合成数据生成与有效的样式转换技术和自动注释映射相结合,我们的框架解决了农村夜间车辆检测中的关键难题,为提高模型在真实世界场景中的性能提供了新颖实用的解决方案。


四、方法

本节将介绍我们提出的方法,该方法通过三个关键步骤解决农村环境中夜间车辆检测的难题:

(1) 生成合成夜间数据:描述了生成真实夜间图像的过程,其中利用CARLA模拟器纳入了关键特征,如车头灯效果和不同的照明条件。

(2)昼夜图像风格转换:介绍了用于执行日夜图像转换的模型架构,从而能够创建与真实世界场景非常相似的夜间图像。

(3)夜间图像的无标签数据扩增:介绍了实现无标签扩增的方法,将日间图像的注释直接映射到风格转换后的夜间图像上,从而促进了强大的扩增数据集的开发。

  • 生成合成夜间数据

如上一节所述,改进夜间车辆检测的主要挑战来自于路边摄像头图像的低质量以及收集足够大且多样化的数据集的困难。为了解决这些问题,我们使用CARLA生成合成夜间图像,CARLA是一个广泛使用的开源平台,主要用于自动驾驶研究。CARLA提供对各种环境和操作参数的广泛控制,如天气条件、照明、车辆类型、前照灯设置(如低光束、高光束)以及摄像头位置和视角。通过这些可定制的选项,可以创建一个全面、多样的数据集,准确反映真实的农村交通环境。特别是在农村公路安全研究方面,该模拟器允许在关键位置(如弯道和坡道)战略性地放置摄像头,因为这些位置通常实行较低的速度限制。

为了接近真实的农村环境,在以下情况下收集合成图像:(1) 相对于摄像头的出发和接近车辆;(2)侧视和俯视视角;(3)多车和单车场景。图2展示了几个具有代表性的示例。值得注意的是,在本研究中,所有合成图像都是在晴朗天气条件下生成的,没有进行任何环境修改。

图片2.png

  • 昼夜图像风格转换

Efficient Attention GAN(EAGAN)建立在CycleGAN框架的基础上,将高效注意力模块集成到生成器网络中,同时在相应的编码器和解码器模块之间实现注意力共享。这种机制允许在重建目标域对应图像时重新利用从源域图像计算出的长距离依赖关系。这种设计使EAGAN成为高质量图像到图像 (I2I) 翻译任务的可靠选择,尤其是在保持域间一致性至关重要的情况下。

在本研究中,EAGAN架构被用于在农村环境中执行从白天到黑夜的风格转换。该模型使用两个特定领域的数据集进行训练:真实世界的白天图像和CARLA虚拟夜间图像。

I2I转换任务一般考虑将X域(白天)的图像x转换为Y域(夜间)的图像 y,以映射表示:G : x → y,F : y → x,其中G和F是生成器网络。目标是确保分布G(X)和F(Y)分别与X和Y无差别,同时保留语义信息和周期一致性。

看图3为了从日间图像和CARLA夜间图像中训练用于数据增强目的的EAGAN,模型输入包括 {Real X, Real Y},其中Real X和Real Y分别来自X域和Y域。按照GAN的标准训练流程,通过优化最小-最大对抗目标,同时训练判别器和生成器。与传统的对抗损失相比,提出的最小平方对抗损失具有更高的稳定性,因此被采用。

图片3.png

  • 针对夜间图像的无标签数据增强技术

YOLO模型系列为物体检测带来了革命性的变化,它具有实时检测和高精度的特点。最新版本YOLO11在此基础上增加了注意力机制、更深的特征提取层以及无锚检测方法。它专为应对检测小型、隐蔽或快速移动车辆等挑战而设计。通过整合CNN和自我注意机制的优势,YOLO11提高了检测精度和计算效率,使其非常适合现实世界的应用。在我们的研究中,YOLO11被用作 “注释器”,对日间图像进行自动注释。从日间图像中获得的标签可直接应用于风格转换后的夜间图像,因为感兴趣的对象(即车辆)将保持在相同的位置。这样,我们就可以利用YOLO11模型的精确车辆检测能力,自动为风格转换后的夜间图像获取标签。

最初的YOLO11模型是在COCO数据集上进行预训练的,该数据集包括与农村环境相关的汽车、公共汽车和卡车等车辆类别。在本研究中,我们的重点是对两个特定车辆类别进行分类:0类(轿车)和1类(SVP-BV)。SVP-BV类别包括SUV、Van、Pick-UP和大型车辆。为了与新的车辆类别保持一致,COCO车辆类别重新映射如下:(1) 轿车->加长轿车;(2) 公共汽车和卡车->SVP-BV。将EAGAN模型生成的风格转换夜间图像与YOLO11 预测的相应标签进行组合,就得到了增强数据集。


五、Coovally AI模型训练与应用平台

如果你也想要进行模型训练或模型改进,Coovally平台满足你的要求!

Coovally平台整合了国内外开源社区1000+模型算法各类公开识别数据集无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。

图片

图片

而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码

图片

具体操作步骤可参考:YOLO11全解析:从原理到实战,全流程体验下一代目标检测

平台链接:https://www.coovally.com

如果你想要另外的模型算法数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!


六、实验 

  • 数据

我们的数据来自加利福尼亚州的多个公共交通摄像头,其中包括白天和夜间的图像,分别用于训练和测试。具体来说,数据分为三类:

(1)EAGAN模型的训练数据集;

(2)YOLO11模型的微调数据集;

(3)用于比较原始YOLO11模型和微调版本性能的评估数据集。

表 1 提供了每个数据集的详细摘要。

图片4.png

  • 图像风格转换

在使用EAGAN进行图像风格转换时,我们以两个域为目标:X 域包括真实世界中的日间图像,Y域包括CARLA生成的夜间图像。我们对 EAGAN 进行了200次训练,学习率初始化为0.0002,并在第100次训练后开始线性下降。这种学习率衰减策略可确保模型顺利收敛,从而获得更好的泛化效果和性能[22]。

表 2 显示了EAGAN训练的详细参数设置。

图片5.png

每个epoch大约需要150秒,在单个英伟达A6000 GPU上完成整个训练过程大约需要8小时。图4展示了经过训练的EAGAN模型的测试示例。结果证实了日夜转换的成功,包括有效地增加了车头灯特征。值得注意的是,该模型准确地将车头灯置于车辆的正确位置,证明了其可靠定位车辆并识别其位置的能力。有趣的是,还观察到了一些与阴影相关的效果:

图片6.png

  • 阳光下的车辆阴影:对于晴天条件下车辆投射的阴影(如图 4 第 5 列和第 6 列中的第 1 行和第 2 行),模型倾向于将汽车保险杠前的阴影解释为车辆的一部分。这就导致了传输图像中照射的前大灯与汽车前部之间存在轻微的角度偏差。不过,这种微小的偏差并不会影响模型在夜间识别车辆的能力。

  • 树下阴影区域的车辆:当车辆经过树影区域时(如图 4 第 5 列和第 6 列中的第 3 行),车辆特征与斑驳树影的融合给模型带来了挑战。这些阴影区域就像噪音一样,会降低传输图像的质量,并对下游任务产生负面影响。虽然这些阴影效应会带来一些伪影,但EAGAN模型的整体性能在生成高质量的昼夜图像转换时仍然非常稳定。

  • 夜间车辆检测和分类

本实验采用了YOLO11-Small模型。图5展示了原始YOLO11-Small模型生成的预测样本,这些样本可作为其样式转换后的夜间图像的标签。

图片7.png

虽然CARLA可以生成逼真的夜间道路场景图像,但与真实世界的夜间道路场景相比,在外观上仍存在细微差别。为了弥补这一领域适应性方面的不足,我们在训练数据集中加入了部分人工标注的真实世界夜间图像。通过这种方法,模型可以从CARLA生成的图像和真实世界的夜间图像中学习相关特征,从而提高其整体性能和鲁棒性。

为了对模型进行微调,对模型的不同组件实施了学习率调度策略。首先,对骨干网络进行微调,学习率为0.0001,持续50次。随后,主干网络被冻结,颈部网络则完全采用0.00005的学习率,再持续50个epochs。最后,主干网络和颈部网络都被冻结,头部网络的学习率为 0.00001,再进行 50 次训练。这种分块适应策略有别于EAGAN训练中使用的方法,有助于增强收敛性和提高泛化能力。

如图6-8所示,为了进行评估,我们分析了农村地区路边交通摄像头拍摄的一组具有代表性的真实世界夜间图像。这些夜间图像存在各种挑战,包括环境光线不足、图像质量差以及车头灯眩光造成的问题。最初的YOLO11模型经常难以将车辆与背景区分开来,即使在光线相对较好的条件下也是如此,而且在检测到车辆时,往往会产生较低的置信度分数。相比之下,经过微调的YOLO11模型在增强型数据集上经过训练后,检测成功率达到100%,置信度得分也显著提高,这证明了建议框架的有效性。

图片8.png

图片9.png

图片10.png

表 3 列出了原始模型和经过微调的 YOLO11 模型在各种指标上的详细分类结果:

图片11.png

表3显示了各分类的显著改进,表明微调模型有效捕捉了夜间场景中的大多数车辆,解决了当前最先进物体检测模型的主要局限性。mAP 指标的持续改进进一步凸显了微调模型在具有挑战性的夜间条件下检测和定位车辆的鲁棒性。针对不同类别的微调增强了对小型车辆(轿车)和大型车辆(SVP-BV)的检测能力。值得注意的是,微调模型对SVP-BV类别的边界框精度略低,这主要是由于新定义的类别中车辆类型多种多样。


结论

在这项工作中,我们提出了一个用于增强夜间车辆检测的新框架,其特点是采用无标记方法创建一个增强数据集,以微调物体检测模型,从而提高夜间条件下的性能。我们使用EAGAN作为图像转换器,从白天的对应图像生成相应的夜间图像。此外,我们在EAGAN训练和 YOLO11 微调过程中采用了不同的学习率调度策略,以确保顺利收敛并增强泛化能力。原始YOLO11模型和微调版本之间的性能比较表明,使用增强数据集进行微调的YOLO11 模型在夜间车辆检测方面的性能明显优于原始 YOLO11 模型。该模型能够以很高的置信度检测到车辆并对其进行定位,这凸显了利用适当的增强数据进行微调的有效性,使其成为实际应用中更可靠的解决方案。

尽管如此,我们也承认在未来的研究中应该解决几个局限性问题:(1)虽然 CARLA目前提供了多种类型的车辆,但仍未涵盖道路上的所有车辆类型,尤其是牵引车和房车,这限制了合成数据的多样性。此外,CARLA 中的前大灯还需要进一步改进,以更好地复制在真实世界环境中观察到的眩光效果。(2) 虽然 EAGAN模型在 CycleGAN 的生成器中加入了注意力共享机制,但未来的研究可以探索其他机制,以更有效地解决观察到的阴影效应。(3) 为了验证概念,本研究使用的训练和测试数据集相对较小。未来的工作应考虑使用我们提出的数据增强方法大幅扩展数据集,这有望进一步提高模型的性能和鲁棒性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33831.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源工具利器:Mermaid助力知识图谱可视化与分享

在现代 web 开发中,可视化工具对于展示流程、结构和数据关系至关重要。Mermaid 是一款强大的 JavaScript 工具,它使用基于 Markdown 的语法来呈现可定制的图表、图表和可视化。对于展示流程、结构和数据关系至关重要。通过简单的文本描述,你可…

C++算法学习2:二分算法精讲

一、实数二分法回顾 1.1问题背景 在1~2的范围内找到一个x&#xff0c;使得式子5x2 -9x 1 的绝对值<10-9&#xff08;即无限接近0&#xff09; 要求&#xff1a;x精确到小数点后9位。 换句话说也就是求&#xff1a;就是求方程 5x2- 9x 1 0 在1~2内的近似解 1.2怎么找到…

手写一个简易版的tomcat

Tomcat 是一个广泛使用的开源 Servlet 容器&#xff0c;用于运行 Java Web 应用程序。深入理解 Tomcat 的工作原理对于 Java 开发者来说是非常有价值的。本文将带领大家手动实现一个简易版的 Tomcat&#xff0c;通过这个过程&#xff0c;我们可以更清晰地了解 Tomcat 是如何处理…

object.assign和扩展运算法是深拷贝还是浅拷贝,两者区别

object.assign和扩展运算法是深拷贝还是浅拷贝&#xff0c;两者区别 1. 浅拷贝的本质2. Object.assign 和扩展运算符的区别‌3. 具体场景对比‌合并多个对象‌‌复制数组‌‌处理默认值‌ ‌4. 如何实现深拷贝&#xff1f;JSON.parse(JSON.stringify(obj))‌‌递归深拷贝函数第…

X-CLIP和X-FLORENCE论文解读

1.研究背景 尽管已有研究探索了如何将语言-图像模型迁移到其他下游任务&#xff08;如点云理解和密集预测&#xff09;&#xff0c;但视频识别领域的迁移和适应性研究还不够充分。例如&#xff0c;ActionCLIP提出了一种“预训练、提示和微调”的框架用于动作识别&#xff0c;但…

微信小程序刷题逻辑实现:技术揭秘与实践分享

页面展示&#xff1a; 概述 在当今数字化学习的浪潮中&#xff0c;微信小程序以其便捷性和实用性&#xff0c;成为了众多学习者刷题备考的得力工具。今天&#xff0c;我们就来深入剖析一个微信小程序刷题功能的实现逻辑&#xff0c;从代码层面揭开其神秘面纱。 小程序界面布局…

Android UI 组件系列(二):Button 进阶用法

引言 在上一篇博客中&#xff0c;我们介绍了 Button 的基本用法和常见属性&#xff0c;掌握了 Button 的基础知识。然而&#xff0c;在实际开发中&#xff0c;Button 远不止于简单的点击功能&#xff0c;它还可以支持不同的变体、丰富的自定义样式&#xff0c;以及更灵活的状态…

【云馨AI-大模型】RAGFlow功能预览:Dify接入外部知识库RAGFlow指南

介绍 Dify介绍 开源的 LLM 应用开发平台。提供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力&#xff0c;轻松构建和运营生成式 AI 原生应用。比 LangChain 更易用。官网&#xff1a;https://dify.ai/zh RAGFlow介绍 RAGFlow 是一款基于深度文档理解构建的…

Redis超高并发分key实现

Redis扛并发的能力是非常强的&#xff0c;所以高并发场景下经常会使用Redis&#xff0c;但是Redis单分片的写入瓶颈在2w左右&#xff0c;读瓶颈在10w左右&#xff0c;如果在超高并发下即使是集群部署Redis&#xff0c;单分片的Redis也是有可能扛不住的&#xff0c;如下图所示&a…

缓存使用的具体场景有哪些?缓存的一致性问题如何解决?缓存使用常见问题有哪些?

缓存使用场景、一致性及常见问题解析 一、缓存的核心使用场景 1. 高频读、低频写场景 典型场景&#xff1a;商品详情页、新闻资讯、用户基本信息。特点&#xff1a;数据更新频率低&#xff0c;但访问量极高。策略&#xff1a; Cache-Aside&#xff08;旁路缓存&#xff09;&a…

HTML5(Web前端开发笔记第一期)

p.s.这是萌新自己自学总结的笔记&#xff0c;如果想学习得更透彻的话还是请去看大佬的讲解 目录 三件套标签标题标签段落标签文本格式化标签图像标签超链接标签锚点链接默认链接地址 音频标签视频标签 HTML基本骨架综合案例->个人简介列表表格表单input标签单选框radio上传…

ubuntu22.04 关于挂在设备为nfts文件格式无法创建软连接的问题

最近遇到情况&#xff0c;解压工程报错&#xff0c;无法创建软连接 但是盘内还有130G空间&#xff0c;明显不是空间问题&#xff0c;查找之后发现是移动硬盘的文件格式是NTFS&#xff0c;在ubuntu上不好兼容&#xff0c;于是报错。 开贴记录解决方案。 1.确定文件格式 使用命…

深度解读DeepSeek部署使用安全(48页PPT)(文末有下载方式)

深度解读DeepSeek&#xff1a;部署、使用与安全 详细资料请看本解读文章的最后内容。 引言 DeepSeek作为一款先进的人工智能模型&#xff0c;其部署、使用与安全性是用户最为关注的三大核心问题。本文将从本地化部署、使用方法与技巧、以及安全性三个方面&#xff0c;对Deep…

RK3568 Android13 源码编译

提示&#xff1a;RK3568 Android13 源码编译 脚本&#xff0c;源码编译管理方式优化 文章目录 获取源码设置屏幕配置确认屏幕修改源码的设备树 修改线程数整体编译Android固件配置JDK java 环境 source javaenv.sh使能编译 build/envsetup.sh lunch topeet_rk3568-userdebug整体…

【CentOS】搭建Radius服务器

目录 背景简介&#xff1a;Radius是什么&#xff1f;Radius服务器验证原理搭建Radius服务器环境信息yum在线安装配置FreeRADIUS相关文件clients.conf文件users文件重启服务 验证 参考链接 背景 在项目中需要用到Radius服务器作为数据库代理用户的外部验证服务器&#xff0c;做…

ToB公司找客户专用|大数据获客系统

对于ToB公司而言&#xff0c;找到并吸引合适的潜在客户并非易事。传统的获客手段如参加行业展会、电话推销以及直接拜访等&#xff0c;虽然在过去取得了一定成效&#xff0c;但如今却暴露出诸多问题。首先&#xff0c;这些方法往往成本高昂&#xff0c;无论是时间还是金钱上的投…

Linux 文件权限类

目录 文件属性 从左到右的10个字符表示 rwx作用文件和目录的不同解释 图标&#xff1a; 案例实操 chmod 改变权限 基本语法 经验技巧 案例实操 拓展&#xff1a;可以通过一个命令查看用户列表 chown改变所有者 基本语法 选项说明 案例实操 chgrp 改变所属组 基…

DeepSeek技术解析:MoE架构实现与代码实战

以下是一篇结合DeepSeek技术解析与代码示例的技术文章&#xff0c;重点展示其核心算法实现与落地应用&#xff1a; DeepSeek技术解析&#xff1a;MoE架构实现与代码实战 作为中国AI领域的创新代表&#xff0c;DeepSeek在混合专家模型&#xff08;Mixture of Experts, MoE&…

vue3:八、登录界面实现-页面初始搭建、基础实现

一、初始工作 1、创建登录文件 在src/views中创建文件LoginView.vue文件 2、创建路由 在router/index.js中增加登录的信息 代码 import { createRouter, createWebHistory } from vue-router import HomeView from ../views/HomeView.vue const router createRouter({hist…

dify+mysql的诗词助手

目录 数据库表结构&#xff1a; 数据库查询的http服务搭建&#xff1a; 流程引擎搭建&#xff1a; 开始&#xff0c; HTTP查询数据库&#xff0c; LLM数据分析&#xff0c; 直接回复&#xff0c; 效果测试&#xff1a; 下载链接&#xff1a; 数据库表结构&#xff1a;…