【佳佳怪文献分享】MVFusion: 利用语义对齐的多视角 3D 物体检测雷达和相机融合

标题:MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion

作者:Zizhang Wu , Guilian Chen , Yuanzhu Gan , Lei Wang , Jian Pu

来源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)

这是佳佳怪分享的第2篇文章

摘要

多视角雷达-摄像头融合三维物体检测为自动驾驶提供了更远的检测范围和更多有用的功能,尤其是在恶劣天气下。目前的雷达-相机融合方法提供了多种将雷达信息与相机数据融合的设计。然而,这些融合方法通常采用多模态特征之间的直接串联操作,忽略了雷达特征的语义一致性和模态之间的充分相关性。在本文中,我们提出了一种新颖的多视图雷达-摄像机融合方法 MVFusion,以实现雷达特征的语义对齐并增强跨模态信息交互。为此,我们通过语义对齐雷达编码器(SARE)将语义对齐注入雷达特征,生成图像引导的雷达特征。然后,我们提出了雷达引导融合变换器(RGFT)来融合雷达和图像特征,通过交叉注意机制从全局范围加强两种模态的相关性。大量实验表明 MVFusion 在 nuScenes 数据集上实现了最先进的性能(51.7% NDS 和 45.3% mAP)。我们将在论文发表后公布我们的代码和训练有素的网络。

在这里插入图片描述
图 1. 基于摄像头的方法 [13] 和我们的 MVFusion 的探测对比。(a) 图像和雷达输入,雷达点的颜色表示与雷达的距离。(b) 3D 检测地面实况。© 基于摄像头的方法 [13] 的结果,该方法未能检测到远处的汽车和近处的行人。(d) 我们的方法利用语义对齐的雷达信息进行了充分的雷达-摄像机融合,成功检测到了丢失的汽车和行人。

在这里插入图片描述
图 2. 我们提出的 MVFusion 概览,主要由五个部分组成:雷达预处理模块、图像编码器、语义对齐雷达编码器(SARE)、雷达引导融合变换器(RGFT)和检测网络。SARE 将语义配准注入雷达特征,而 RGFT 则 RGFT 融合雷达和图像特征,旨在从全局范围充分促进两种模态的互动。多视角雷达表示法参考了文献[15]。

在这里插入图片描述
图 3. 雷达特征提取器(RFE)的结构图,其中包括 用于稀疏雷达特征的残差特征卷积块。
在这里插入图片描述
图 4. 图像制导雷达变换器(IGRT)概览。IGRT 为雷达特征分配可学习的位置编码,以通过多头自注意机制进一步增强 空间信息。
在这里插入图片描述
图 5. 雷达引导融合变换器(RGFT)概述。RGFT 融合了高级雷达和图像特征,在交叉注意机制下实现了充分的相关性。
在这里插入图片描述
图 6. 我们的方法与之前的方法 [13] 的环视检测结果对比。我们用 黄色圆圈表示我们的方法,蓝色圆圈表示 [13] 的方法。我们的方法在不同视角下都能实现正确的目标检测,而我们的方法在不同视角下都能实现充分的目标检测。在不同视角下,我们的方法都能正确检测到物体,其中语义对齐的雷达特征与视觉特征之间充分的雷达-相机互动为三维检测提供了更多有用的线索。
在这里插入图片描述
表1. 在 nuscenes 测试集上使用不同模态的单帧最先进作品比较。表示采用 dd3d [42] 预训练 v2-99 [43] 主干网
在这里插入图片描述
表2. 采用不同骨干网和模态对 nuscenes val 集进行的单帧最新研究成果比较。† 表示采用 dd3d [42] 预先训练的 v2-99 [43] 骨架。
在这里插入图片描述
表3. 对拟议组件的值集进行消融研究。sare "表示语义对齐雷达编码器,"rgft "表示雷达制导融合变换器。
在这里插入图片描述
表4. 语义对齐雷达编码器(SARE)阀值集消融实验。si "表示语义指示器。igt "表示图像制导雷达变换器。

在这里插入图片描述
表5. 雷达制导融合变压器(RGFT)阀组烧蚀研究 变压器(RGFT)。w "表示 “有”,"w/o "表示 “无”。表示 “无”。q’、‘k’、‘v’表示查询、键、值。IMG. 表示图像。concat.’ 表示 “连接”。

结论

本文提供了一种用于三维物体检测的新型多视图雷达-摄像机融合方法 MVFusion,该方法实现了语义对齐雷达特征和鲁棒跨模态信息交互。具体来说,我们提出了语义对齐雷达编码器(SARE)来提取图像引导的雷达特征。在提取雷达特征后,我们提出了雷达引导融合变换器(RGFT),将增强的雷达特征与高级图像特征进行融合。在 nuScenes 数据集上进行的大量实验验证了我们的模型达到了单帧雷达-摄像机融合的最先进性能。未来,我们将汇集多视角相机的时空信息,进一步促进雷达-相机融合。​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/91532.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Mariadb高可用MHA】

目录 一、概述 1.概念 2.组成 3.特点 4.工作原理 二、案例介绍 1.192.168.42.3 2.192.168.42.4 3.192.168.42.5 4.192.168.42.6 三、实际构建MHA 1.ssh免密登录 1.1 所有节点配置hosts 1.2 192.168.42.3 1.3 192.168.42.4 1.4 192.168.42.5 1.5 192.168.42.6 …

【深入理解ES6】块级作用域绑定

1. var声明及变量提升机制 提升(Hoisting)机制:通过关键字var声明的变量,都会被当成在当前作用域顶部生命的变量。 function getValue(condition){if(condition){var value "blue";console.log(value);}else{// 此处…

2. 获取自己CSDN文章列表并按质量分由小到大排序(文章质量分、博客质量分、博文质量分)(阿里云API认证)

文章目录 写在前面步骤打开CSDN质量分页面粘贴查询文章url按F12打开调试工具,点击Network,点击清空按钮点击查询是调了这个接口https://bizapi.csdn.net/trends/api/v1/get-article-score用postman测试调用这个接口(不行,认证不通…

Android Settings 无障碍设置显示大小页面重复加载问题

基于Android 11,跟踪源码 显示大小页面 packages/apps/Settings/src/com/android/settings/display/PreviewSeekBarPreferenceFragment.java 通过commit() 提交更新页面显示大小。该方法是是在其父类PreviewSeekBarPreferenceFragment 实现调用。 基类预览滑动进度…

回归预测 | MATLAB实现基于PSO-LSSVM-Adaboost粒子群算法优化最小二乘支持向量机结合AdaBoost多输入单输出回归预测

回归预测 | MATLAB实现基于PSO-LSSVM-Adaboost粒子群算法优化最小二乘支持向量机结合AdaBoost多输入单输出回归预测 目录 回归预测 | MATLAB实现基于PSO-LSSVM-Adaboost粒子群算法优化最小二乘支持向量机结合AdaBoost多输入单输出回归预测预测效果基本介绍模型描述程序设计参考…

修改第三方组件默认样式

深度选择器 修改el-input的样式&#xff1a; <el-input class"input-area"></el-input>查看DOM结构&#xff1a; 原本使用 /deep/ 但是可能不兼容 使用 :deep .input-area {:deep(.el-input__inner){background-color: blue;} }将 input 框背景色改为…

龙蜥社区安全联盟(OASA)正式成立,启明星辰、绿盟、360 等 23 家厂商重磅加入

7 月 28 日&#xff0c;由启明星辰、绿盟、360、阿里云、统信软件、浪潮信息、中兴通讯&#xff5c;中兴新支点、Intel、中科院软件所等 23 家单位共同发起的龙蜥社区安全联盟&#xff08;OASA&#xff0c;OpenAnolisSecurityAlliance&#xff09;&#xff08;以下简称“安全联…

tensorflow / tensorflow-gpu cuda cudNN tensorRT 安装,启用显卡加速

tensorflow / tensorflow-gpu cuda cudNN tensorRT 安装,启用显卡加速 说明 Tensorflow-GPU 已被移除。请安装 tensorflow 。 tensorflow 通过 Nvidia CUDA 支持 GPU 加速操作。 自 2019 年 9月发布 的 TensorFlow2.1 以来&#xff0c;tensorFlow 和 tensorflow-GPU 一直是同…

如何进行游戏平台搭建?

游戏平台搭建涉及多个步骤和技术&#xff0c;下面是一个大致的指南&#xff1a; 市场调研和定位&#xff1a;首先&#xff0c;要了解游戏市场和受众的需求&#xff0c;选择适合的游戏类型和定位。 选择平台类型&#xff1a;决定是要搭建网页平台、移动应用平台还是其他类型的…

SCF金融公链新加坡启动会 创新驱动未来

新加坡迎来一场引人瞩目的金融科技盛会&#xff0c;SCF金融公链启动会于2023年8月13日盛大举行。这一受瞩目的活动将为金融科技领域注入新的活力&#xff0c;并为广大投资者、合作伙伴以及关注区块链发展的人士提供一个难得的交流平台。 在SCF金融公链启动会上&#xff0c; Wil…

grafana 的 ws websocket 连接不上的解决方式

使用了多层的代理方式&#xff0c;一层没有此问题 错误 WebSocket connection to ‘wss://ip地址/grafana01/api/live/ws’ failed: 日志报错 msg“Request Completed” methodGET path/api/live/ws status403 解决方式 # allowed_origins is a comma-separated list of o…

数据治理:打造可信赖的BI环境

章节一&#xff1a;引言 随着信息时代的不断发展&#xff0c;数据已经成为企业决策的重要支撑。而在大数据时代&#xff0c;海量的数据需要被整理、分析&#xff0c;以便为企业提供正确的指导。商业智能&#xff08;BI&#xff09;系统的兴起为企业提供了强大的数据分析能力&am…

基于Bsdiff差分算法的汽车OTA升级技术研究(学习)

摘要 针对汽车OTA整包升级时&#xff0c;用户下载时间长&#xff0c;升级时间长&#xff0c;设备服务器端压力大等问题&#xff0c;本文提出了一种基于Bsdiff差分算法的汽车OTA升级技术。该算法能够对比新旧版本的差异&#xff0c;进行差分文件下载&#xff0c;减少软件包的下…

Mariadb高可用MHA

本节主要学习了Mariadb高可用MHA的概述&#xff0c;案例如何构建MHA 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、概述 1、概念 MHA&#xff08;MasterHigh Availability&#xff09;是一套优秀的MySQL高可用环境下故障切换和主从复制的软件。…

【图像分类】理论篇 (4)图像增强opencv实现

随机旋转 随机旋转是一种图像增强技术&#xff0c;它通过将图像以随机角度进行旋转来增加数据的多样性&#xff0c;从而帮助改善模型的鲁棒性和泛化能力。这在训练深度学习模型时尤其有用&#xff0c;可以使模型更好地适应各种角度的输入。 原图像&#xff1a; 旋转后的图像&…

复习1-2天【80天学习完《深入理解计算机系统》】第六天

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客&#xff0c;如有问题交流&#xff0c;欢迎评论区留言&#xff0c;一定尽快回复&#xff01;&#xff08;大家可以去看我的专栏&#xff0c;是所有文章的目录&#xff09;   文章字体风格&#xff1a; 红色文字表示&#…

Ubuntu 连接海康智能相机步骤(亲测,成功读码)

ubuntu20.04下连接海康智能相机 Ubuntu 连接海康智能相机步骤(亲测&#xff0c;已成功读码)输出的结果 Ubuntu 连接海康智能相机步骤(亲测&#xff0c;已成功读码) (就是按照海康的提供的步骤和源码连接相机&#xff0c;流水账) 安装Ubuntu20.04安装gcc和g&#xff0c;IDmvs只…

OpenHarmony Meetup 广州站 OpenHarmony正当时—技术开源

招募令 OpenHarmony Meetup 广州站 火热招募中&#xff0c;等待激情四射的开发者&#xff0c;线下参与OpenHarmonyMeetup线下交流 展示前沿技术、探讨未来可能、让你了解更多专属OpenHarmony的魅力 线下参与&#xff0c;先到先得,仅限20个名额&#xff01; 报名截止时间8月23日…

python_PyQt5运行股票研究python方法工具V1.2_增加折线图控件

承接【python_PyQt5运行股票研究python方法工具V1.1_增加表格展示控件】 地址&#xff1a;python_PyQt5运行股票研究python方法工具V1.1_增加表格展示控件_程序猿与金融与科技的博客-CSDN博客 目录 结果展示&#xff1a; 代码&#xff1a; 示例py文件代码&#xff08;低位股…