论文笔记 - :DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

Title: 深入研究单目 3D 物体检测的输出表示

Abstract

单目 3D 对象检测旨在从单个图像中识别和定位 3D 空间中的对象。最近的研究取得了显着的进展,而所有这些研究都遵循基于 LiDAR 的 3D 检测中的典型输出表示。

然而,在本文中,我们认为现有的离散输出表示不适合单目 3D 检测。具体来说,单目3D检测只有二维信息输入,而需要输出三维检测。这一特性表明单目 3D 检测本质上不同于具有相同维度输入和输出的其他典型检测任务。尺寸差距导致估计深度误差的下限较大。

因此,我们建议将现有的离散输出表示重新表示为根据深度的空间概率分布这种概率分布考虑了由于缺乏深度维度而导致的不确定性,使我们能够准确、全面地表示 3D 空间中的物体

大量的实验展示了我们的输出表示的优越性。因此,我们将我们的方法应用于 12 个 SOTA 单目 3D 探测器,持续将其平均精度 (AP) 相对提高约 20%。源代码将很快公开。

==问题导读==

所谓的离散输出指的是什么?

所谓的深度的空间概率分布指的是什么?怎么得到和利用?这么做有什么直观地好处?

一、Introduction

为了提高准确性,先前的工作做了很多尝试,包括利用估计深度图几何性质以及网络设计

所有先前的单目作品都采用了早期检测任务中出现的典型输出表示 ,即2D框检测与对应的3D框,其中3D框被视为最终结果。然而,这种离散输出表示忽略了单目 3D 检测和其他检测任务之间固有的巨大差距。如表1所示,我们总结了不同检测任务的输入/输出及其在源域中的维度。对于单目3D检测,需要推理高维3D框,而只有低维信息输入。这个差距在其他两个检测任务中并不存在,我们的定量实验证明正是维度差距导致单目3D检测的检测精度较低
在这里插入图片描述
作者分析了深度误差,得出结论:深度误差随着深度的增长呈指数增长。我们还展示了一个理论下界,它呈二次方增加(详细推导请参见第 3.2 节)。 SOTA 探测器中的深度误差和理论下限都表明,对于不靠近的物体,估计深度无法准确。在这里插入图片描述从固有的尺寸差距和由此产生的大深度误差的角度来看,我们认为现有的离散深度预测表示对于单目 3D 检测来说并不是最优的。大的深度误差意味着预测的深度具有很大的不确定性,由此产生的离散3D框预测不能准确、全面地表示3D空间中的物体状态。因此,在本文中,我们的目标是重新制定单目 3D 检测的输出表示,以考虑固有的维度差距和深度不确定性
在这里插入图片描述
我们的重新表述包括两个步骤:

  • 首先,如图 2 所示,我们使用正态分布将每个离散检测输出转换为空间概率分布,其中标准差随着深度的增长而增加。

  • 其次,我们在考虑深度不确定性的同时从空间分布中采样多个3D框,并将它们视为新的检测结果。

换句话说,我们不是只输出一个离散的 3D 框,而是将 3D 框转换为 3D 空间中的连续空间概率分布,然后通过采样产生更多预测。我们的方法考虑了潜在的缺失深度维度,利用单目 3D 检测的输出表示中的深度不确定性,因此一致且显着地提高了大多数检测器的性能。

我们总结我们的主要贡献如下:

• 我们重新思考单目 3D 物体检测的基本机制,认为它与其他检测任务有着本质上的不同。根据我们的分析,我们将离散输出表示重新表述为空间概率分布,这对于单目 3D 检测来说更加合理。

• 我们已将我们的方法应用于 12 个最新的 SOTA 单目 3D 探测器,持续将其平均精度 (AP) 相对提高约 20%。值得注意的是,我们的方法可以很容易地适应任何单目 3D 探测器,这不会带来额外的成本。

问题解答:
离散指的是单独预测一个3D框是离散的,也包括了深度值是离散的。
因此作者觉得这样是不行的,需要进行正态分布式的概率分布化。

二、Related works

然而,他们没有考虑深度对位置中其他参数的影响,我们的实验表明位置中的实例深度是检测率低的主要原因。

目前的单目方法都没有考虑输出表示中维度gap带来的深度不确定性。

三、WHAT MAKES MONOCULAR 3D DETECTION CHALLENGING?

3.1 DILEMMA IN MONOCULAR 3D DETECTION

单目3D检测只有2D信息,而需要输出精确的3D信息。缺失的维度正是深度,这就是预测精确深度非常具有挑战性的原因。

即: 维度的缺失-深度,导致预测不精确。

不幸的是,在物理层面上,由于尺寸差距,不可能从单个图像中推断出准确的深度,因此单目深度估计的泛化能力在很大程度上受到限制。我们进行实验来证明这一点。如图 3 所示,我们展示了不同最先进的单目检测器在训练集和验证集上的性能。我们可以观察到,训练集上的3D检测精度(包括BEV(鸟瞰图)和3D AP)很高(高于60 AP),而验证集数据的精度极低(低于20 AP)。正如预期的那样,当消除估计深度的影响(用真实深度替换深度预测)时,3D 检测性能大幅提升。验证集上改进的 3D 检测精度与训练集上的精度相当。这表明尺寸差距是单目3D检测的主要障碍。

即: 通过是否有深度条件,得出实验结果相差很大。作者认为是dimension gap导致的。

在这里插入图片描述

3.2 MONOCULAR DEPTH ESTIMATION ERROR LOWER BOUND

在上面有个深度误差图,其中包含了理论值下线。

在这里插入图片描述
在这里插入图片描述

即:存在固有误差,随着深度增加,误差呈现二次方形式增加

四、REFORMULATE OUTPUT REPRESENTATION FOR MONOCULAR 3D DETECTION (重新制定输出表征)

4.1 是否考虑使用先前的输出表示

考虑到单目3D检测中的维度差距,即从2D到3D的提升过程中缺少深度维度,我们重新思考检测输出表示,并提出一个问题:以前的工作采用的离散表示确实合适吗?不幸的是,我们给出了否定的答案。我们列出主要原因如下:

(i)输入不同的维度信息。仅给定 2D 信息,单目 3D 检测任务需要输出精确的 3D 信息。离散且唯一的输出无法精确反映提升预测过程中的不确定性。

(ii) 广阔的 3D 室外空间。在极其广阔的 3D 室外空间中推理出离散但精确的 3D 盒子是非常具有挑战性的。不恰当的单眼图像进一步增加了这一挑战的难度。

(iii)自动驾驶场景对安全性的高度依赖。为了避免与其他障碍物碰撞并更好地进行规划,自我汽车/机器人应该在当前场景中检测尽可能多的物体的精确位置,即追求更高的召回率,而当前的离散表示很难实现这一目标。

4.2 输出表示中的空间概率分布

基于上述分析,我们建议重新制定单目 3D 检测的输出表示。专注于处理缺失的深度维度,我们将离散检测输出转换为深度范围内的空间概率分布。考虑到已知的事实:由于精确的实例深度无法实现,因此我们可以使用空间概率分布来更全面地表示 3D 对象。这种表示还提供了更有价值的信息,例如用于下游任务的对象附近的位置不确定性,例如跟踪和规划

由于该概率分布是为了反映3D空间中深度预测的相对不确定性,因此我们使用相对概率来表示深度不确定性,因此最终的深度置信度如下:
在这里插入图片描述
其中 s 表示任意深度,t(s) 表示相对深度置信度。随着深度的增长,正态分布的标准差也随着深度越来越难以预测而变得越来越大。结合原始置信度(通常是分类),深度 s 处物体的最终置信度为:Cs = C·t(s)。此外,由于投影关系,位置 x, y 应更改以适应新的深度 s。因此,物体在新深度 s 处的位置为 ( x z s, y z s, s)。其他参数(尺寸和方向)不变。我们将这种位置的空间概率分布称为位置分布。

当处理深度估计时,这个公式用于计算相对深度置信度(t(s))。1. **t(s):** 这是相对于深度 s 的深度置信度。换句话说,它表示对深度为 s 的预测的置信水平。这个值越高,就表示对深度 s 的估计越可信。2. **e^(- (s-z)^2 / σ^2):** 这一部分使用了指数函数(e^x)来计算深度置信度。其中,x 的值为 -(s-z)^2 / σ^2。这里的 (s-z) 是
深度预测值与实际深度之间的差异,σ 是标准差(用来表示深度预测的不确定性)。这个公式的作用是,当深度预测与实际深度之间的差异较小时,
置信度会增加,反之则减小。3. **σ = e^(zλ):** 这里定义了标准差 σ,它是一个与深度 z 相关的函数。λ 是一个常数或者一个系数,用来调节标准差的增长速度。
通常情况下,随着深度 z 的增加,标准差 σ 也会增加,因为在更远的深度上进行深度估计会更加困难,预测的不确定性也会增加。综合起来,这个公式描述了在深度估计中如何通过深度差异和标准差来计算相对深度置信度。当深度预测接近实际深度并且标准差较小时,
置信度会更高,反之则会较低。

位置分布具有多项优势。

首先,它自然适合单目 3D 探测器,因为它直接将预测深度的不确定性表达到输出中

其次,它可以更全面、更准确地描述障碍物状态,而现有的使用离散输出表示的方法可能会对不太准确的预测过于自信。

第三,这个输出表示是灵活的,它也与之前的表示兼容(当等式3中的λ设置为−∞时)。

4.3 采样策略

通过使用每个离散原始输出的位置分布,我们得到了一系列对象的概率表示

然后,我们从位置分布中采样位置作为新的检测结果,以评估结果。我们提出了两种采样策略并如图 4 所示。

在这里插入图片描述

  • 基于深度偏移的采样。

我们首先先定义一个深度偏移集,然后为每个原始检测输出使用该集合中的深度偏移。每个深度移动可以与位置分布中的一个位置相关联。对于原始深度为z的物体,新的检测结果为:
在这里插入图片描述

  • 基于概率平移的采样。

与基于深度移位的采样类似,我们使用先验概率集来对位置进行采样。
在这里插入图片描述

五、Experiments

5.1 实施细节

在这里插入图片描述

  • 公式(3)中的 λ设置为 80 KITTI,160 in Waymo ;

  • 我们使用集合 [±2, ±1, ±0.5, 0] 米进行基于深度间隔的采样,使用集合 [0.7, 0.8, 0.9, 1.0] 进行基于概率偏移的采样。

  • 此外,考虑到近距离物体在深度估计方面足够准确,我们不会转换 10 米内物体的输出表示

5.4 有效性分析

我们的输出表示在性能数字方面显示出有希望的改进。这里我们通过 P-R(精确率-召回率)曲线对改进给出更直观的解释。在图 5 中,我们显示了使用不同输出表示的单目 3D 探测器的 P-R 曲线。我们可以看到,我们的方法对高精度和低召回率区域没有影响,而对低精度和高召回率区域有效。因此,我们的方法主要是通过提高召回率来提高单目 3D 检测器的性能,从而提高配备单目 3D 检测器的系统的安全性。
在这里插入图片描述

5.5 Ablation Studies

抽样数量的影响。从位置分布中采样位置时,采样数量也会影响精度。我们将结果显示在表5中,我们可以知道适当的采样数量是优选的。

邻近的点会比较好,不能太过于偏离。

在这里插入图片描述
深度不确定性的影响。在表6中,我们显示了深度不确定性对位置分布的影响。如果采样位置的置信度不通过不确定性进行加权,则原始方法的性能会大幅下降,这证明了单目 3D 检测中深度不确定性的重要性。

深度不确定性非常重要,其他论文中也经常使用。

在这里插入图片描述
抽样策略的影响。我们使用提出的两种采样策略,即基于深度偏移基于概率偏移。如表7所示,两种采样策略都为原始方法带来了显着的改进,这证明了我们方法的有效性。

现实中也是相通的,都是附近的点。不管是概率还是距离,相差不是很大;

在这里插入图片描述
• 位置分布的影响。在本文中,我们仅变换估计深度的空间概率。为了进行全面的比较,我们还将这种变换应用于其他位置参数,即 x 和 y。我们在表8中显示了结果。我们可以看到,没有必要将概率变换为可以通过已知维度很好地推断的其他参数(x和y通常由图像上的投影表示,然后通过深度恢复)。

只用到深度上面,效果更好。

在这里插入图片描述

六、Conclution

在本文中,我们回顾了以前的检测任务,认为单目 3D 检测任务与其他任务有本质上的不同。对于单目 3D 检测,它缺乏深度维度,因此在看不见的数据上表现较差。我们进一步使用单目图像的深度误差下限来证明这一点。

因此,我们建议将先前的离散输出表示重新表示为空间概率分布,以考虑深度估计的不确定性。我们还提出了两种采样策略来从位置分布中采样位置。结果,实验表明我们的输出表示为大多数 SOTA 检测器带来了非常有希望的改进。此外,考虑到固有的深度不确定性,我们可以使用一些网络设计来进一步提高未来工作中的检测精度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/295239.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

超舒适SUV豪华再进化:比亚迪全新腾势N7发布

钟爱SUV的小伙伴们,想必对比亚迪旗下的腾势N7都不会感到陌生。近日,比亚迪正式发布了全新腾势N7,新车型不但继承了腾势品牌一贯的豪华品质,而且还在智能、舒适、便利等方面实现了全面升级,成为百万级超舒适SUV市场的佼…

VMware-16.0配置虚拟机网络模式

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、为什么要配置网络?二、配置步骤1.检查VMware服务2.进入配置页面3.添加网络模式1.Bridge2.NAT3.Host-only 4.DHCP租约5.静态IP 三、使用总结 前言…

数据结构进阶篇 之【选择排序】详细讲解(选择排序,堆排序)

民以食为天,我以乐为先 嘴上来的嘘寒问暖,不如直接打笔巨款 一、选择排序 1.直接选择排序 1.1 基本思想 1.2 实现原理 1.3 代码实现 1.4 直接选择排序的特性总结 2.堆排序 跳转链接:数据结构 之 堆的应用 二、完结撒❀ –❀–❀–❀…

Apache Paimon实时数据糊介绍

Apache Paimon 是一种湖格式,可以使用 Flink 和 Spark 构建实时 数据糊 架构,用于流式和批处理操作。Paimon 创新地将湖格式和 LSM(日志结构合并树)结构相结合,将实时流式更新引入湖架构中。 Paimon 提供以下核心功能: 实时更新: 主键表支持大规模更新的写入,具有非常…

【JavaEE初阶系列】——一万字带你了解 JUC常见类 以及 线程安全集合类(哈希表)

目录 🚩JUC(java.util.concurrent) 的常见类 🎈Callable 接口 🌈理解 Callable(相关面试题) 🌈理解 FutureTask 📝线程创建方式 🎈 ReentrantLock可重入锁 🌈ReentrantLock 优势&#x…

MATLAB简介、下载及安装

1、MATLAB简介 MATLAB(Matrix Laboratory)是由MathWorks公司开发的一款强大的商业数学软件环境,主要用于数值计算、算法开发、数据可视化、数据分析和基于模型的设计等多种用途。MATLAB被广泛应用在学术研究、工程计算、经济建模、控制系统设…

PW1503限流芯片:可达3A限流,保障USB电源管理安全高效

在电源管理领域,开关的性能直接关系到设备的稳定性和安全性。今天,我们将详细解析一款备受关注的超低RDS(ON)开关——PW1503。它不仅具有可编程的电流限制功能,还集成了多项保护机制,为各类电子设备提供了高…

抖音视频关键词批量下载工具|视频爬虫采集软件

抖音视频批量提取工具,搜索即下载,轻松获取所需视频! 正文: 想要轻松获取抖音上的精彩视频吗?现在,有了我们的抖音视频批量提取工具,一切变得简单易行!Q:290615413无论是针对特定关…

Three.js真实相机模拟

有没有想过如何在 3D Web 应用程序中模拟物理相机? 在这篇博文中,我将向你展示如何使用 Three.js和 OpenCV 来完成此操作。 我们将从模拟针孔相机模型开始,然后添加真实的镜头畸变。 具体来说,我们将仔细研究 OpenCV 的两个失真模…

篮球竞赛预约平台的设计与实现|Springboot+ Mysql+Java+ B/S结构(可运行源码+数据库+设计文档)篮球馆,篮球赛,竞赛项目,赛事预约

本项目包含可运行源码数据库LW,文末可获取本项目的所有资料。 推荐阅读300套最新项目持续更新中..... 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 2024年56套包含ja…

电商-广告投放效果分析(KMeans聚类、数据分析-pyhton数据分析

电商-广告投放效果分析(KMeans聚类、数据分析) 文章目录 电商-广告投放效果分析(KMeans聚类、数据分析)项目介绍数据数据维度概况数据13个维度介绍 导入库,加载数据数据审查相关性分析数据处理建立模型聚类结果特征分析…

【Servlet】服务器内部转发以及客户端重定向

文章目录 一、服务器内部转发:request.getRequestDispatcher("...").forward(request, response);二、客户端重定向:response.sendRedirect("");三、服务器内部转发代码示例四、客户端重定向代码示例 一、服务器内部转发&#xff1a…

【EasyExcel】—— 实现excel动态表头设置、多个sheet

引入jar <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.1.0</version></dependency>代码 public static void main(String[] args) {//选择存储地址String fileName "/User…

【六 (2)机器学习-机器学习建模步骤/kaggle房价回归实战】

一、确定问题和目标&#xff1a; 1、业务需求分析&#xff1a; 与业务团队或相关利益方进行深入沟通&#xff0c;了解他们的需求和期望。 分析业务流程&#xff0c;找出可能的瓶颈、机会或挑战。 思考机器学习如何帮助解决这些问题或实现业务目标。 2、问题定义&#xff1a;…

Flutter应用在苹果商店上架前的准备工作与注意事项

引言 &#x1f680; Flutter作为一种跨平台的移动应用程序开发框架&#xff0c;为开发者提供了便利&#xff0c;使他们能够通过单一的代码库构建出高性能、高保真度的应用程序&#xff0c;同时支持Android和iOS两个平台。然而&#xff0c;完成Flutter应用程序的开发只是第一步…

【蓝桥杯第十二届省赛B】(部分详解)

空间 8位1b 1kb1024b(2^10) 1mb1024kb(2^20) 时间显示 #include <iostream> using LLlong long; using namespace std; int main() {LL t;cin>>t;int HH,MM,SS;t/1000;SSt%60;//like370000ms370s,最后360转成分余下10st/60;MMt%60;t/60;HHt%24;printf("%02d:…

前端学习<三>CSS进阶——0102-CSS布局样式

前言 css 进阶的主要内容如下。 1、css 非布局样式 html 元素的分类和特性 css 选择器 css 常见属性&#xff08;非布局样式&#xff09; 2、css 布局相关 css 布局属性和组合解析 常见布局方案 三栏布局案例 3、动画和效果 属于 css 中最出彩的内容。 多背景多投影特…

解决Vue2项目因为安装的依赖和node版本不一致导致的报错问题

这里写自定义目录标题 1. 问题描述2. 问题排查与搜索3. 解决办法4. 反思 1. 问题描述 ERROR Failed to compile with 27 errors 下午7:28:31 error in ./node_modules/quill/themes/bubble.jsModule parse failed: Unexpected token (12:18) You may need an appropriate load…

鸿蒙OS元服务开发:【(Stage模型)设置应用主窗口】

一、设置应用主窗口说明 在Stage模型下&#xff0c;应用主窗口由UIAbility创建并维护生命周期。在UIAbility的onWindowStageCreate回调中&#xff0c;通过WindowStage获取应用主窗口&#xff0c;即可对其进行属性设置等操作。还可以在应用配置文件中设置应用主窗口的属性&…

微信小程序-文字转语音(播放及暂停)

1、使用微信小程序的同声传译功能 小程序平台-设置-第三方设置-插件管理-新增同声传译插件 小程序app.json文件配置 "plugins": {"WechatSI": {"version": "0.3.5","provider": "wx069ba97219f66d99"}},小程序中…