PETR/PETRv2/StreamPETR论文阅读

1. PETR

PETR网络结构如下,主要包括image-backbone,3D Coordinates Generator,3D Position Encoder,transformer Decoder四个模块。

把N 个视角的图像输入到骨干网络中以提取 2D 多视图特征。在 3D 坐标生成器中,首先将相机视锥体空间离散化为 3D 网格。然后,通过相机参数对网格的坐标进行变换,并生成 3D 世界空间中的坐标。3D 坐标与 2D 多视图特征一起被输入到 3D 位置编码器,生成 3D 位置感知特征。3D 特征进一步被输入到 Transformer 解码器中,并与从查询生成器生成的对象查询进行交互。更新后的对象查询用于预测对象类别以及 3D 边界框。

1.1. Images Backbone

采用resnet 或者 vovNet,下面的x表示concatenate

1.2. 3D Coordinates Generator

坐标生成跟ISS类似,假设一系列深度值,再有相机内存进行坐标转换

1.3. 3D Position Encoder

将多视图2D图像特征输入到1×1卷积层以进行降维。这个由三维坐标生成器生成的三维坐标被转换为通过多层感知的3D位置嵌入。3D位置嵌入与同一视图的2D图像特征相加,生成3D位置感知功能。最后,3D位置感知特征被展平并且用作变换器解码器的输入。

这里2D部分是经过三角函数编码后与3DpositionEmb相加作为K,原始的image feature作为V 输入transformer Decoder。

1.4. Transformer Decoder

​DET Query Generator

为了缓解在3D场景中的收敛困难,类似于Anchor DETR,我们首先在均匀分布的3D世界空间中初始化一组可学习的锚点从0到1。然后将3D锚点的坐标输入到小MLP具有两个线性层的网络,并生成初始对象查询Q0。在我们的实践中,在三维空间中使用锚点可以保证收敛在采用DETR中的设置或生成锚点的同时在BEV空间中不能实现令人满意的检测性能。

1.5. Head and Loss

检测头主要包含用于分类和回归的两个分支。来自解码器的更新后的对象查询被输入到检测头,以预测对象类别的概率以及 3D 边界框。请注意,回归分支相对于锚点的坐标预测相对偏移量。为了与 DETR3D 进行公平比较,我们在分类中也采用了焦点损失,在 3D 边界框回归中采用了 L1 损失。令 y = (c, b) 和\hat{y} = (\hat{c}, \hat{b})分别表示真实值和预测值的集合。匈牙利算法用于在真实值和预测值之间进行标签分配。假设 σ 是最优分配函数,那么 3D 对象检测的损失可以总结为:

这里L_{cls}表示分类的焦点损失,L_{reg}是回归的 L1 损失。\lambda_{cls}是一个超参数,用于平衡不同的损失。 

1.6. 实验

训练资源如下:

​代码执行图:

​可视化效果

​时延测试:

extract_feat_time0.0166
positional_encod_time0.0150
transformer_time0.0074
fnn_time0.0031
get_bboxes_time0.0015

2. PETRv2

PETRv2的整体框图如下,与PETR不同的地方在于加入了时序模块,分割头,以及改变了 3D Position Encoder。

2.1. Temporal Modeling

对于某一个view的相机来说,t时刻和t-1时刻构建的视锥模型(坐标值)是一模一样的,通过内外参变换到lidar/ego坐标系后的值也是一模一样的。但是不管从哪个坐标系来说,如果自车运动,上一时刻的坐标和当前时刻的坐标一定是不同的,因此需要进行坐标对齐。

全局坐标系作为一个桥梁可以很好的将t时刻和t-1时刻进行连接。本文以lidar坐标系为基础进行计算。t-1时刻到t时刻坐标的变换就是将t-1时刻的坐标从lidar坐标系变到ego坐标系,再到global坐标系(固定不变),再从global坐标系到t时刻的ego坐标系,再到t时刻lidar坐标系,这就完成了t-1时刻lidar坐标系坐标到t时刻lidar坐标系坐标的变换。

公式2中表示的就是在t-1时刻的lidar坐标系中的坐标变换到t时刻的lidar坐标系中的坐标。左侧的P就是t-1时刻的lidar坐标系中的坐标在t时刻lidar坐标系中的坐标值。t时刻的lidar坐标系和t-1时刻的lidar坐标系是不同的,是变化了的,所以需要一个不会变化的global坐标系作为桥梁。

3D坐标在对齐之后,前后帧直接cat起来,同时前后帧的2D特征也直接cat起来。个人感觉可以这样理解,对于一个视锥模型(D*4, H, W),变换到lidar坐标系后也是这样的tensor结构,也就是空间上看,还是这样一个视椎体。前后帧如果单独来看没有区别,数值都是一样的。但是在对t-1时刻的坐标进行变换后,这些坐标的值发生了变化,但是tensor结构没有发生变化依旧是(D*4, H, W),那么对于H, W的某个位置x和y来说,t时刻是一条射线上的若干点坐标,t-1时刻变换到t时刻,同样的位置x和y处是上一时刻的一一对应的坐标,这表示的就是坐标的变化,这条射线上每个点在△t内坐标的变化。而2D特征的cat就是t时刻和t-1时刻特征的组合,用来增强特征表达。

2.2. Multi-task Learning

不同的任务使用task-specific的queries,anchor points的选择不同。

3d目标检测的检测头和PETR中是一样的,learnable anchors通过mlp形成queries。

分割是把高分辨率的bev map分成小的patch,每个query负责一个特定的patch,比如bev map中左上25*25像素的patch。在bev空间中使用固定的anchor points初始化queries,然后通过一个2层的MLP生成seg queries,这些queries在decoder中不断更新最后输入到分割头,和CVT中的decoder相似,预测最终的分割结果。

车道线的表达使用的是一系列的3D坐标,比如在深度方向(y)上均匀采样100个点,每条车道线如果在y上的某个点可见就有相对应的x和z值,如果不可见就不关注,说明这个y值的地方没有车道线,一般可见性都是连续的,某一段y值区域连续可见,有对应的x和z,这样通过散点的形式表示一条线。

定义anchor lane平行于y轴,选择anchor points生成lane quereis,最后预测类别,相对于anchor lane的x和z轴的offsets和每个位置的可见性。

3. StreamPETR

StreamPETR的总体架构。内存队列存储历史对象查询。在Propagation Transformer中,最近的对象查询依次与历史查询和当前图像特征交互,以获得时间和空间信息。输出查询被进一步用于生成检测结果,并且前K个非背景目标查询被推送到存储器队列中。通过存储器队列的循环更新,长期时间信息被逐帧传播。

3.1. Propagation Transformer模块

Propagation Transformer和MLN 的细节。在PT中,object查询与混合查询和图像特征进行迭代交互。运动感知层规范化对运动属性进行编码(姿态、时间戳、速度),并隐式地执行补偿。不同色调的矩形象征着来自不同帧,灰色矩形表示当前帧的初始化查询,虚线矩形对应于背景查询。

3.2. Hybrid Attention

Hybrid Attention在这里用于取代原生的self-attention。首先它起到self-attention的作用,对于当前帧的重复框进行抑制。其次,当前帧的object query还需要和历史帧object query做类似cross attention操作,进行时序的交互。 由于hybrid queries远小于cross attention中 image token的数量,因此所带来的额外计算量可以忽略不计。此外历史object query也会传递到当前帧为当前帧提供更好的初始化(propagate query)。

参考文献

https://zhuanlan.zhihu.com/p/660293688

https://zhuanlan.zhihu.com/p/689481109

PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

PETR: Position Embedding Transformation for Multi-View 3D Object Detection 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/473056.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

若点集A=B则A必能恒等变换地变为B=A这一几何常识推翻直线(平面)公理

黄小宁 关键词:“更无理”复数 复平面z各点z的对应点z1的全体是z1面。z面平移变为z1面就使x轴⊂z面沿本身平移变为ux1轴。R可几何化为R轴,R轴可沿本身平移变为R′轴,R′轴可沿本身平移变为R″轴,...。直线公理和平面公理使几百年…

在Node.js中如何使用TypeScript

第一步:创建一个Node.js项目的package.json文件 npm init -y第二步:添加TypeScript、添加node.d.ts npm install typescript -D npm install types/node -D第三步:初始化一个tsconfig.json文件 npx tsc --init --rootDir src --outDir lib…

海康大华宇视视频平台EasyCVR私有化视频平台服务器选购主要参数有哪些?

在构建现代服务器和视频监控系统时,选择合适的硬件配置和关键技术是确保系统性能和稳定性的基础。服务器选购涉及到多个关键参数,这些参数直接影响到服务器的处理能力、数据存储、网络通信等多个方面。 同时,随着视频监控技术的发展&#xf…

async 和 await的使用

一、需求 点击按钮处理重复提交,想要通过disabled的方式实现。 但是点击按钮调用的方法里有ajax、跳转、弹窗等一系列逻辑操作,需要等方法里流程都走完,再把disabled设为false,这样下次点击按钮时就可以继续走方法里的ajax等操作…

【Pikachu】XML外部实体注入实战

若天下不定&#xff0c;吾往&#xff1b;若世道不平&#xff0c;不回&#xff01; 1.XXE漏洞实战 首先写入一个合法的xml文档 <?xml version "1.0"?> <!DOCTYPE gfzq [<!ENTITY gfzq "gfzq"> ]> <name>&gfzq;</name&…

g++与gdb简单学习

本文的内容由智谱清言产生 ------ 使用g编译C程序 使用gdb设置断点&#xff0c;反汇编代码&#xff0c;单步执行 int main() {int a 1;a;return 0; } 1.编译程序&#xff1a;使用 g 编译器将 C 源代码编译成 IA-32 可执行文件。 这可以通过添加 -m32 标志来实现&#xff0…

【小白可懂】微信小程序---课表渲染

结果展示&#xff1a;&#xff08;代码在最后&#xff09; WeChat_20241116174431 项目简介 在数字化校园建设的大背景下&#xff0c;为了更好地服务于在校师生&#xff0c;我们开发了一款基于微信小程序的课表管理系统。该系统采用了现代化的前端技术和优雅的设计风格&#x…

【实验11】卷积神经网络(2)-基于LeNet实现手写体数字识别

&#x1f449;&#x1f3fc;目录&#x1f448;&#x1f3fc; &#x1f352;1. 数据 1.1 准备数据 1.2 数据预处理 &#x1f352;2. 模型构建 2.1 模型测试 2.2 测试网络运算速度 2.3 输出模型参数量 2.4 输出模型计算量 &#x1f352;3. 模型训练 &#x1f352;4.模…

Python酷库之旅-第三方库Pandas(221)

目录 一、用法精讲 1036、pandas.DatetimeIndex.to_pydatetime方法 1036-1、语法 1036-2、参数 1036-3、功能 1036-4、返回值 1036-5、说明 1036-6、用法 1036-6-1、数据准备 1036-6-2、代码示例 1036-6-3、结果输出 1037、pandas.DatetimeIndex.to_series方法 10…

【WPF】Prism学习(三)

Prism Commands 1.复合命令&#xff08;Composite Commanding&#xff09; 这段内容主要介绍了在应用程序中如何使用复合命令&#xff08;Composite Commands&#xff09;来实现多个视图模型&#xff08;ViewModels&#xff09;上的命令。以下是对这段内容的解释&#xff1a; …

【Oracle篇】掌握SQL Tuning Advisor优化工具:从工具使用到SQL优化的全方位指南(第六篇,总共七篇)

&#x1f4ab;《博主介绍》&#xff1a;✨又是一天没白过&#xff0c;我是奈斯&#xff0c;DBA一名✨ &#x1f4ab;《擅长领域》&#xff1a;✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux&#xff0c;也在扩展大数据方向的知识面✌️…

【一键整合包及教程】AI照片数字人工具EchoMimic技术解析

在数字化时代&#xff0c;人工智能&#xff08;AI&#xff09;正以前所未有的速度改变着我们的生活。EchoMimic&#xff0c;作为蚂蚁集团旗下支付宝推出的开源项目&#xff0c;不仅为数字人技术的发展掀开了新的一页&#xff0c;更为娱乐、教育、虚拟现实、在线会议等多个领域带…

基于Lora通讯加STM32空气质量检测WIFI通讯

目录 目录 前言 一、本设计主要实现哪些很“开门”功能&#xff1f; 二、电路设计原理图 1.电路图采用Altium Designer进行设计&#xff1a; 2.实物展示图片 三、程序源代码设计 四、获取资料内容 前言 随着环境污染问题的日益严重&#xff0c;空气质量的监测与管理已经…

GitLab 降级安装出现 500 错误,如何解决?

本文分享 GitLab 中文版在降级的过程中出现 500 错误的修复方法。 写在前面 强烈不建议大家自行降级&#xff0c;如果真有降级需求&#xff0c;要么自己能力过硬&#xff0c;要么寻求专业服务【https://dl.gitlab.cn/cm33bsfv】&#xff0c;要不出问题很麻烦&#xff01; 问…

2024-11-16 串的存储结构

一、顺序存储。 1.首先定一个静态数组&#xff0c;然后定义i记录串的实际长度。&#xff08;缺点&#xff1a;长度不可变&#xff09; 2.使用malloc申请动态空间&#xff0c;定义指针指向串的地址。&#xff08;需手动ferr&#xff09; 方案一&#xff1a; 数组末尾记录长度 …

PCHMI串口接收实验

插入的唯一一行代码 config1.START((Control)this, System.Reflection.Assembly.GetExecutingAssembly().GetTypes(), null);

代码随想录第46期 单调栈

这道题主要是单调栈的简单应用 class Solution { public:vector<int> dailyTemperatures(vector<int>& T) {vector<int> result(T.size(),0);stack<int> st;st.push(0);for(int i1;i<T.size();i){if(T[i]<T[st.top()]){st.push(i);}else{wh…

Spring 中的 BeanDefinitionParserDelegate 和 NamespaceHandler

一、BeanDefinitionParserDelegate Spring在解析xml文件的时候&#xff0c;在遇到<bean>标签的时候&#xff0c;我们会使用BeanDefinitionParserDelegate对象类解析<bean>标签的内容&#xff0c;包括<bean>标签的多个属性&#xff0c;例如 id name class in…

ODC 如何精确呈现SQL耗时 | OceanBase 开发者工具解析

前言 在程序员或DBA的日常工作中&#xff0c;编写并执行SQL语句如同日常饮食中的一餐一饭&#xff0c;再寻常不过。然而&#xff0c;在使用命令行或黑屏客户端处理SQL时&#xff0c;常会遇到编写难、错误排查缓慢以及查询结果可读性不佳等难题&#xff0c;因此&#xff0c;图形…

Bugku CTF_Web——No one knows regex better than me

Bugku CTF_Web——No one knows regex better than me 进入靶场 一段PHP代码 <?php error_reporting(0); $zero$_REQUEST[zero]; $first$_REQUEST[first]; $second$zero.$first; if(preg_match_all("/Yeedo|wants|a|girl|friend|or|a|flag/i",$second)){$key$…