解决长尾问题,BEV-CLIP:自动驾驶中复杂场景的多模态BEV检索方法

解决长尾问题,BEV-CLIP:自动驾驶中复杂场景的多模态BEV检索方法

image

理想汽车的工作,原文,BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving

链接:https://arxiv.org/pdf/2401.01065.pdf

自动驾驶中对复杂场景数据的检索需求正在增加,尤其是随着乘用车已经具备了在城市环境中导航的能力,必须解决长尾场景问题。同时,在已有的二维图像检索方法下,场景检索可能会出现一些问题,如缺乏全局特征表示和亚层次文本检索能力。

为了解决这些问题,作者提出了BEV-CLIP,这是第一种多模态BEV检索方法,它利用描述性文本作为输入来检索相应的场景。该方法利用大型语言模型(LLM)的语义特征提取能力,促进零样本检索大量文本描述,并结合知识图中的半结构化信息,提高语言嵌入的语义丰富性和多样性。实验结果表明在NuScenes数据集上,文本到BEV特征检索的准确率为87.66%。论文中的示例支持本文的检索方法也被证明在识别某些长尾场景方面是有效的!

本文旨在研究在自动驾驶场景中开发视觉文本检索系统的两个基本问题。

(1) 如何克服二维图像特征固有的局限性,特别是它们在自动驾驶场景中有效表示全局特征的能力较差?

(2) 哪些方法可能会增强自动驾驶领域中文本表示目前不令人满意的效果?为了解决这两个问题,提出以下建议。

特征提取:建议使用BEV框架,因为它为自动驾驶场景描述提供了统一的表示。通过组合多视角相机数据,BEV框架从自上而下的角度将2D感知投影到详细的3D描述中。该方法克服了在基于2D的后融合方法中经常出现的与特征截断相关的限制,并为决策规划和控制等下游任务实现了统一的感知格式。此外,在检索任务的上下文中,BEV特征的结合显著增强了模型将文本数据与3D空间内的位置属性相关联的能力!

作为一个值得注意的解决方案,BEVFormer,一种基于transformer的BEV编码器,仅从相机输入生成全局特征,并用作各种下游任务的端到端模型。因此,对BEV特征进行场景检索是解决提取全局表示问题的综合解决方案,作为一种众所周知的方法,将BEVFormer用于BEV特征提取对我们来说既有利又合理。

语言表达。建议将复杂的语义数据作为额外的输入,以补偿仅在图像数据中不明显的抽象特征。现有的多模态大型语言模型(LLM)在表达其他模态的特征方面表现出了显著的能力。CLIP为使用对比学习的多模式检索提供了基线,使模型能够通过利用语言模型的解码能力来生成零样本推断。受此启发,我们构建了一个改进的LLM,并采用微调策略来提供更丰富的语义信息,作为BEV特征的补充。此外,还将引入知识图特征,以提高知识在自动驾驶领域的显著性。LLM和知识图的融合旨在实现我们方法中极好的跨模态理解。

BEV-CLIP方法介绍

BEV-CLIP如下图所示,这是第一种BEV检索方法检索自动驾驶的corner case。与2D图像检索相比,BEVCLIP允许在BEV特征的背景下进行与复杂全局特征相关的语义检索,从而实现spa conquers。同时,BEV-CLIP使用大型语言模型(LLM)来增强模型理解检索文本中复杂描述的能力。

image

BEV-CLIP的总体结构。(a) BEV和文本特征的处理。BEV编码器使用冻结的参数将来自周围6个相机的图像生成为BEV特征。同时,将输入文本嵌入与关键字匹配的知识图节点嵌入级联,并输入到具有LoRA分支的语言编码器中进行处理。(b) 共享跨模态提示(SCP),将BEV和语言特征对齐在同一隐藏空间中。(c) caption生成和检索任务的联合监督。

image

image

实验效果

作者选择NuScenes数据集,这是唯一可用的具有开放文本描述的多视图数据集,并通过组合策略对其进行扩展。基于这样的数据集设置,作者希望揭示理解复杂、详细和独特的语义表示的能力。同时努力消除数据分布中的重复性和通用性,以验证零样本检索的能力。

image

image

最强自动驾驶学习资料和落地经验获取:链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/285280.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】快速排序(用递归)

大家好,我是苏貝,本篇博客带大家了解快速排序,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 一. 基本思想二. 快速排序2.1 hoare版本2.2 挖坑法2.3 前后指针法2.4 快速排序优化三数取中法…

Python学习(一)

Python环境下载安装 安装略 验证安装结果与编写第一个Python程序

Vue 实现带拖动功能的时间轴

1.效果图 2. 当使用timeline-slider-vue组件时,你可以设置以下属性: date:用于设置时间轴滑块的初始日期,格式通常为 YYYY-MM-DD。 mask:一个布尔值,用于控制是否显示背景遮罩。 markDate:一…

需求:实现一个类似打印的效果(文字一个字一个字的输出)

实现效果: 需求:最近接到这么一个需求,ai机器人回复的问题,后端是通过websocket每隔一段事件返回数据,前端拿到数据后直接渲染,现在需要做到一个效果,后端返回的结果前端需要一个一个文字的输出…

MultiArch与Ubuntu/Debian 的交叉编译

返回:OpenCV系列文章目录(持续更新中......) 上一篇:基于ARM 的Linux系统的交叉编译 下一篇:MultiArch与Ubuntu/Debian 的交叉编译 警告: 本教程可能包含过时的信息。 什么是“MultiArch” OpenCV 可能…

【Canvas与艺术】暗蓝网格汽车速度仪表盘

【关键点】 采用线性渐变色&#xff0c;使上深下浅的圆有凹下效果&#xff0c;使上浅下深的圆有凸起效果&#xff0c;两者结合就有立体圆钮的感觉。 【图例】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type&quo…

php搭建websocket

1.项目终端执行命令&#xff1a;composer require topthink/think-worker 2.0.x 2.config多出三个配置文件&#xff1a; 3.当使用php think worker:gateway命令时&#xff0c;提示不支持Windows。 4.打包项目为zip格式 5.打包数据库 6.阿里云创建记录 7.宝塔面板新增站点…

win10如何录制视频?解锁屏幕录制新姿势!

在Windows 10操作系统中&#xff0c;视频录制已经成为一项非常实用的功能。无论是进行在线教育、游戏直播&#xff0c;还是制作教学视频、会议记录&#xff0c;一款易于使用且功能强大的录屏软件都是必不可少的。在本文中&#xff0c;我们将向您介绍win10如何录制视频的三种方法…

一枝独秀,基于区块链共益型短视频平台享视,真的能抗衡各大短视频平台吗

早在2006年&#xff0c;全球非营利性组织共益实验室(B Lab)就提出了共益企业(B Corp)的概念&#xff0c;致力于推动商业向善。 但时至今日&#xff0c;共益企业发展仍处初级阶段&#xff0c;而且只强调要对社区、员工、环境、供应商、消费者等利益相关者负责&#xff0c;认定标…

【协议-HTTPS】

https https是在http协议的基础上&#xff0c;添加了SSL/TLS握手以及数据加密传输&#xff0c;也属于应用层协议。 httpshttp加密认证完整性保护 https交互图&#xff1a; HTTPS的整体过程分为证书验证和数据传输阶段&#xff1a; ① 证书验证阶段 浏览器发起 HTTPS 请求 服务…

电脑不能读取移动硬盘,但是可以读取U盘解决方法

找到此电脑 右键设备管理器&#xff0c;找到其中的通用串行总线控制器。 注意&#xff0c;凡是插入到电脑当中不能读取的U盘或者移动硬盘&#xff0c;都会在通用串行总线控制器当中显示为USB大容量存储设备 鼠标选中“USB大容量存储设备”&#xff0c;右键卸载它。此时&#x…

【算法每日一练]-动态规划(保姆级教程 篇17 状态压缩)#POJ1185:炮兵阵地 #互不侵犯

目录 今日知识点&#xff1a; 把状态压缩成j,dp每行i的布置状态&#xff0c;从i-1和i-2行进行不断转移 把状态压缩成j,dp每行i的布置状态&#xff0c;从i-1行进行状态匹配&#xff0c;然后枚举国王数转移 POJ1185&#xff1a;炮兵阵地 思路&#xff1a; 题目&#xff1a;互…

Verilog刷题笔记44

题目&#xff1a;Consider the n-bit shift register circuit shown below: 解题&#xff1a; module top_module (input clk,input w, R, E, L,output Q );always(posedge clk)beginif(L1)Q<R;elseQ<(E1)?w:Q;endendmodule结果正确&#xff1a; 注意点&#xff1a; …

吴恩达2022机器学习专项课程(一) 3.6 可视化样例

问题预览 1.本节课主要讲的是什么&#xff1f; 2.不同的w和b&#xff0c;如何影响线性回归和等高线图&#xff1f; 3.一般用哪种方式&#xff0c;可以找到最佳的w和b&#xff1f; 解读 1.课程内容 设置不同的w和b&#xff0c;观察模型拟合数据&#xff0c;成本函数J的等高线…

安卓studio连接手机之后,一两秒之后就自动断开了。问题解决。

太坑了&#xff0c;安卓studio链接手机之后。几秒之后就断开了。我以为是adb的问题&#xff0c;就重新安装了一下adb。并且在环境变量中配置了Path的路径。然而并没有什么用啊。 经过排查原来是数据心虚了。线的接触不良。导致你刚接通的瞬间有相对较强的电流是因为有瞬间高电压…

【ArcGIS微课1000例】0106:ArcGIS制作风向频率(风速)玫瑰图

文章目录 一、效果预览二、加载数据三、创建图表四、图表修饰五、保存图片一、效果预览 在ArcGIS制作的风向频率玫瑰图最终效果如下所示: 二、加载数据 加载配套实验数据包中0106.rar中的excel数据,然后右键→打开。 三、创建图表 1. 创建图表。右击打开属性表,选择表选项…

Mac电脑高清媒体播放器:Movist Pro for mac下载

Movist Pro for mac是一款专为Mac操作系统设计的高清媒体播放器&#xff0c;支持多种常见的媒体格式&#xff0c;包括MKV、AVI、MP4等&#xff0c;能够流畅播放高清视频和音频文件。Movist Pro具有强大的解码能力和优化的渲染引擎&#xff0c;让您享受到更清晰、更流畅的观影体…

蓝桥杯第十五届抱佛脚(二)竞赛中的数据结构

蓝桥杯第十五届抱佛脚&#xff08;二&#xff09;内置数据结构 文章目录 蓝桥杯第十五届抱佛脚&#xff08;二&#xff09;内置数据结构在竞赛中常见的数据结构数组(Array)链表(Linked List)栈(Stack)队列(Queue)树(Tree)映射(Map) 内置数据结构的快速使用迭代器&#xff08;It…

(一)基于IDEA的JAVA基础7

关系运算符 运算符 含义 范例 结果 等于 12 false &#xff01; 不等于 1&#xff01;2 true > 大于 1>2 false < 小于 …

谈谈我对 AIGC 趋势下软件工程重塑的理解

作者&#xff1a;陈鑫 今天给大家带来的话题是 AIGC 趋势下的软件工程重塑。今天这个话题主要分为以下四大部分。 第一部分是 AI 是否已经成为软件研发的必选项&#xff1b;第二部分是 AI 对于软件研发的挑战及智能化机会&#xff0c;第三部分是企业落地软件研发智能化的策略…