自动驾驶3D目标检测综述(六)

停更了好久终于回来了(其实是因为博主去备考期末了hh)

这一篇接着(五)的第七章开始讲述第八章的内容。第八章主要介绍的是三维目标检测的高效标签。


目录

第八章 三维目标检测高效标签

一、域适应

(一)问题和挑战

(二)跨传感器域适应

(三)跨天气域适应

(四)模拟现实域适应

二、弱监督3D目标检测

(一)问题和挑战

(二)弱监督三维目标检测

三、半监督3D目标检测

(一)问题和挑战

(二)半监督三维目标检测

四、自监督3D目标检测

(一)问题和挑战

(二)自监督三维目标检测


第八章 三维目标检测高效标签

在这个章节里,我们介绍一些三维目标检测高效标签的方法。在前几个章节中,我们通常假设三维检测器是在全监督下进行训练的,且是在特定数据域和充足大量的上下文的情况下进行的。然而,在现实世界的应用中,三维目标检测方法不可避免地会遇到泛化能力差和缺少上下文的问题。为了解决这些问题,高效标签化的技术就能够应用于三维目标检测,包括三维目标检测的域适应(第一节)、弱监督学习(第二节)、半监督学习(第三节)和自监督学习(第四节)。我们将会在下面几个章节中介绍这些方法。

一、域适应

(一)问题和挑战

域间隙在数据收集过程中是普遍存在的。不同的传感器设置和放置,不同的地理位置以及不同的天气都有可能得到完全不同的数据域。在大部分情况中,在特定域中训练的三维目标检测器比在其他域中训练的检测器性能更差。人们提出了许多技术来解决三维目标检测中域适应的问题,比如采用源和目标域的一致性,以及在目标域中自训练。然而,大部分方法仅仅注重解决某个特定的域转换问题。设计一个域适应方法,这种方法可以应用于三维目标检测中任意一个域转换任务,这将是一个有前途的研究方向。三维目标检测域适应方法阐述图如下:

方法分类如下表:

(二)跨传感器域适应

不同的数据集有着不同的传感器设置,比如在nuScenes数据集上采用的32光束的激光雷达VS在KITTI数据集上采用的64光束的激光雷达, 并且数据也在不同的地理位置收集,比如KITTI数据集是在德国收集的,而Waymo是在美国收集的。这些因素都会导致不同数据集间产生严重的域间隙,并且在数据集上训练的检测器在其他数据集上测试时通常性能较差。Wang等人的一项开创性工作就是观察到了不同数据集之间的间隙,并且引入了一种统计归一化的方法来处理这些间隙。下面许多工作也都采用了自训练的方法解决域适应的问题。在这些方法中,在源数据集上预训练的检测器将为目标数据集引入伪标签,并且会在带有伪标签的目标数据集上重新训练。这些方法主要在获取更高质量的伪标签上做出了改进,比如Saltori提出了一种范围和检测策略,Yang引入了一种记忆库,Fruhwirth-Reisinger等人采用场景流应用,以及You等人采用重放来增强伪标签的质量。除了自训练方法,也存在一些论文在源和目标域之间建立对齐。域对齐通过规模意识和范围意识对齐策略(这是Zhang等人提出的),多级别一致性(Luo等人提出)以及对比性联合训练方案(Yihan等人提出)来建立。

除了数据集间的域间隙,不同的传感器之间也能够产生不同特征的数据。一个32光束的激光雷达能产生比64光束激光雷达更稀疏的点云,并且不同摄像机获取的图像也拥有不同的尺寸和内参。Rist等人提出了一种多任务学习模式来解决不同激光雷达传感器的域间隙,并且Gu提出了不变位置的转换来解决不同相机间的域间隙。

(三)跨天气域适应

天气状况对数据的收集也会造成巨大的影响。在雨天的时候,雨滴会改变目标表面特质以致于很少有激光雷达光束能够反射回来并检测到,所以在雨天收集的点云比在干燥天气下收集的点云更加稀疏。除了反射更少之外,下雨也会导致来自中空雨滴错误的正反射。Xu等人提出了跨天气域适应问题的一种新颖的语义点生成方案。

(四)模拟现实域适应

模拟数据已经被广泛应用于三维目标检测中,因为现实世界收集的数据并不能覆盖所有的驾驶场景。然而,合成数据与现实数据有着截然不同的特质,这也就导致了模拟现实域适应的问题。人们提出了许多方法来解决这个问题,例如Zhu等人提出的基于训练的GAN并引入一种对抗的鉴别器来区分现实和合成数据。

二、弱监督3D目标检测

(一)问题和挑战

现存的三维目标检测方法都高度依赖大量人工标签的三维边界框上的训练,但是给这些三维边界框添加注释是非常耗时费力和昂贵的。弱监督学习可能成为这个问题的一个解决方案,因为弱监督信号,例如更少昂贵的二维注释,已经被应用于三维目标检测模型中。若监督三维目标检测不需要那么多人工数据注释,但是在弱监督和全监督方法中仍存在不可忽视的性能间隙。弱监督三维目标检测方法阐述如下图:

(二)弱监督三维目标检测

弱监督方法采用弱监督而非全监督注释三维边界框来训练三维目标检测器。弱监督包括二维图像边界框,一个预训练的图像检测器,BEV目标中心和车辆实例。这些方法通常设计出新颖的学习机制来跳过三维框监督并通过从弱信号中最小化有用的信息来学习如何检测三维目标。

三、半监督3D目标检测

(一)问题和挑战

在现实世界应用中,数据注释需要的人力比数据收集更多。通常一个数据获取车一天之内能够收集十万多帧点云,然而一个熟练的人类注释者一天仅能注释一百到一千帧。这就不可避免的会导致大量增长的未标签化的数据。因此如何从大范围未标签的数据中最小化有用的信息就成为了研究界和工业界一个严峻的挑战。半监督学习是一个有希望的方向,它采用少部分标签化数据和大量未标签化的数据来联合训练一个更强大的模型。将半监督学习方法结合到三维目标检测中去能够增强检测性能。半监督三维目标检测方法阐述如下:

(二)半监督三维目标检测

半监督三维目标检测主要有两种方法:伪图像标签和教师-学生学习。伪图像标签方法(Caine等人提出)首先采用标签化的数据训练了一个三维目标检测器,然后使用三维检测器为那些未标签化的数据产生伪图像标签。最终,三维目标检测器在未标签化的域内用伪图像标签重新训练。教师-学硕方法(Zheng等人提出)在三维目标检测中采用平均教师训练范式。具体而言,一个教师检测器首先在标签化域中训练,然后通过鼓励两种检测模型间的输出一致性来指导学生检测器在未标签化域中训练。

四、自监督3D目标检测

(一)问题和挑战

自监督预训练已经成为一个强大的工具,当大量未标签化数据和限制性的标签数据存在时。在自监督学习中,模型首先在大范围的未标签化的数据中预训练,之后在标签化的数据集上微调以获得更好的性能。在自动驾驶场景中,三维目标检测的自监督预训练还未探索许多。现存方法仍尝试适应自监督方法,例如对比性学习,相对于三维目标检测问题,但是多模态数据中丰富的语义信息还未被很好地利用起来。如何在预训练高效三维目标检测器时有效处理这些原始点云和图像仍是一项开放性的挑战。自监督三维目标检测方法阐述如下:

(二)自监督三维目标检测

自监督方法通常将对比性学习技术应用到三维目标检测中。具体而言,输入点云首先转换成增强的两种视角,之后应用对比性学习来支持两种视角下相同三维位置的特征一致性。最终,采用对比学习预训练的三维检测器进一步在标签化数据集上微调以获得更好的性能。PointContrast(Xie等人提出)首次在三维目标检测中引入对比学习范式,并且以下文章中通过采用深度信息和聚合改进了这个范式。除了点云检测器的自监督学习,还有一些工作尝试为自监督三维检测同时采用点云和图像,例如Li提出了一种基于多模态输入的模型内和模型间的对比学习模式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/498338.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何恢复永久删除的PPT文件?查看数据恢复教程!

可以恢复永久删除的PPT文件吗? Microsoft PowerPoint应用程序是一种应用广泛的演示程序,在人们的日常生活中经常使用。商人、官员、学生等在学习和工作中会使用PowerPoint做报告和演示。PowerPoint在人们的学习和工作生活中占主导地位,每天都…

四大自平衡树对比:AVL树、红黑树、B树与B+树

AVL树、红黑树、B树和B树的对比与应用场景 树系列相关文章(置顶) 1、从链表到平衡树:二叉查找树的退化与优化 2、自平衡二叉查找树:如何让二叉查找树始终保持高效 3、AVL树入门:理解自平衡二叉查找树的基础 4、红黑树全…

IOS safari 播放 mp4 遇到的坎儿

起因 事情的起因是调试 IOS 手机下播放服务器接口返回的 mp4 文件流失败。对于没调试过移动端和 Safari 的我来说着实费了些功夫,网上和AI也没有讲明白。好在最终大概理清楚了,在这里整理出来供有缘人参考。 问题 因为直接用 IOS 手机的浏览器打开页面…

Kubernetes Gateway API-2-跨命名空间路由

1 跨命名空间路由 Gateway API 具有跨命名空间路由的核心支持。当多个用户或团队共享底层网络基础设施时,这很有用,但必须对控制和配置进行分段,以尽量减少访问和容错域。 Gateway 和 Route(HTTPRoute,TCPRoute,GRPCRoute) 可以部署到不同的命名空间中,路由可以跨命名空间…

第十六届蓝桥杯模拟赛(第一期)(C语言)

判断质因数 如果一个数p是个质数,同时又是整数a的约数,则p称为a的一个质因数。 请问2024有多少个质因数。 了解 约数,又称因数。整数a整除整数b,b为a的因数(约数)质数,又称素数。只有1和它本身两…

AI安全的挑战:如何让人工智能变得更加可信

引言 随着人工智能(AI)技术在各个领域的广泛应用,尤其是在医疗、金融、自动驾驶和智能制造等行业,AI正在重塑我们的工作和生活方式。从提高生产效率到实现个性化服务,AI带来了前所未有的便利。然而,在享受这…

TiDB 的MPP架构概述

MPP架构介绍: 如图,TiDB Server 作为协调者,首先 TiDB Server 会把每个TiFlash 拥有的region 会在TiFlash上做交换,让表连接在一个TiFlash上。另外 TiFlash会作为计算节点,每个TiFlash都负责数据交换,表连接…

springboot499基于javaweb的城乡居民基本医疗信息管理系统(论文+源码)_kaic

摘 要 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自古…

【SQL Server】教材数据库(1)

1 利用sql建立教材数据库,并定义以下基本表: 学生(学号,年龄,性别,系名) 教材(编号,书名,出版社编号,价格) 订购(学号…

RT-Thread中堆和栈怎么跟单片机内存相联系

现在RT-ThreadMCU的应用方式越来越普遍,RT-Thread需要配置MCU中的RAM到的系统中,进入系统内存管理,才能提供给基于实时系统的应用程序使用,比如给应用程序提供malloc、free等函数调用功能。在嵌入式软件开发中,我们经常…

Linux硬盘分区 --- fdisk命令MBR分区、添加硬盘、lsblk命令

一、MBR分区 如果想对硬盘进行分区可以使用“ fdisk ”命令,它会采用MBR格式将硬盘进行分区。MBR是传统的分区机制,支持 32 位和 64 位系统,最多只能创建 4 个主分区,或者 3 个主分区和 1 个扩展分区,只支持不超过 2T…

GraphRAG 框架哪家强?选择最适合你智能问答系统的框架

GraphRAG 框架哪家强?选择最适合你智能问答系统的框架 点击进入:GraphRAG系列文章-Nano-GraphRAG:打造轻量级医疗诊断助手 点击进入:GraphRAG系列文章-突破传统知识管理瓶颈:LlamaIndex GraphRAG 让企业知识问答更智能…

day-102 二进制矩阵中的最短路径

思路 BFS 解题过程 从起点依次向八个方向尝试(之后也一样),如果某个位置在矩阵内且值为0且没有访问过,将其添加到一个队列中,依次类推,直到到达出口 Code class Solution {public int shortestPathBinar…

vue3学习笔记(10)-$subscribe,store组合式写法

1.$subscribe订阅,监视vuex中数据得修改 2.localStorage里面穿的都是字符串,关掉浏览器数据还在 只能获取字符串,用ts语法写明,作为字符串使用 3.组合式写法

WAP短信格式解析及在Linux下用C语言实现

WAP短信格式解析及在Linux下用C语言实现 一、引言二、WAP短信格式概述三、WAP短信头的内容四、UDHI与WAP短信体的关系五、在Linux下用C语言解析WAP短信头及短信体内容一、引言 在移动通信领域,短信作为一种古老却稳定的通信方式,一直扮演着重要的角色。随着技术的发展,短信…

从 Coding (Jenkinsfile) 到 Docker:全流程自动化部署 Spring Boot 实战指南(简化篇)

前言 本文记录使用 Coding (以 Jenkinsfile 为核心) 和 Docker 部署 Springboot 项目的过程,分享设置细节和一些注意问题。 1. 配置服务器环境 在实施此过程前,确保服务器已配置好 Docker、MySQL 和 Redis,可参考下列链接进行操作&#xff1…

华为消费级QLC SSD来了

近日,有关消息显示,华为的消费级SSD产品线,eKitStor Xtreme 200E系列,在韩国一家在线零售商处首次公开销售,引起了业界的广泛关注。 尽管华为已经涉足服务器级别的SSD制造多年,但直到今年6月才正式推出面向…

visual studio连接sql server数据库

目录 1、为什么要建立连接2、在sql server中建立数据库3、visual studio连接sql server数据库4、学生信息管理系统页面布局5、添加事件逻辑 5.1 页面跳转5.2 读取学生信息5.3 查询学生信息5.4 修改学生信息5.5 删除学生信息5.6 添加学生信息 bilibili演示视频 github源码 1、…

HTML——30.视频引入

<head><meta charset"UTF-8"><title>视频引入</title></head><body><!--video:在网页中引入音频IE8以及之前版本不支持属性名和属性值一样&#xff0c;可以只写属性名src属性:指定视频文件路径&#xff0c;必须要有controls属…

基于Pytorch和yolov8n手搓安全帽目标检测的全过程

一.背景 还是之前的主题&#xff0c;使用开源软件为公司搭建安全管理平台&#xff0c;从视觉模型识别安全帽开始。主要参考学习了开源项目 https://github.com/jomarkow/Safety-Helmet-Detection&#xff0c;我是从运行、训练、标注倒过来学习的。由于工作原因&#xff0c;抽空…