论文速读系列一:VoteNet、CBGS、BirdNet、StarNet、STD


如有错误,恳请指出。


参考网上资料,对一些经典论文进行快速思路整理

文章目录

  • 1. VoteNet
  • 2. CBGS
  • 3. BirdNet
  • 4. StarNet
  • 5. STD

参考网上资料,对一些经典论文进行快速思路整理

1. VoteNet

paper:《Deep Hough Voting for 3D Object Detection in Point Clouds》
结构图:
在这里插入图片描述

思路:利用投票的思路先获取物体中心,再进行后续方向尺寸等信息预测

对于点云空间的每个点都可以预测其到某个物体中心的相对距离,这个相对距离可以通过标注信息获取进行有监督训练。那么如过某个区域的大部分点其预测的中心都比较接近,这个中心大概率是某个物体的中心。也就是说,如果某个区域大部分的点都能正确预测到中心点位置,那么投票过后少数服从多数,即可得到中心点。

具体来说,进行最远点采样得到的每个点都进行两个投票结果预测,分别是中心点到该点的偏移量以及中心点feature到该点的feature偏移量,有了预测的偏移量就可以计算出来每个店预测的中心点坐标以及中心点feature。之后,对这些点进行投票,获得K个投票结果(可能是通过聚类的方法实现),对于这些K个采样点进行半径为r的范围分区,通过PointNet网络对这些分区进行聚类,得到K个聚类feature,进行后续边界框尺寸、方向、置信度等信息预测。

VoteNet的流程其实有点类似Two-stage,先获得物体中心再进行pointnet聚合特征修正,与先获得proposal再进行roi聚合特征修正,有点类似。只是这里毕竟没有RPN网络,换一个角度来说就是隐式生成proposal进行优化。

参考资料:

1. VoteNet: Object Detection in Point Clouds ICCV2019


2. CBGS

paper:《Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection》
结构图:
在这里插入图片描述

CBGS是一个Two-stage、Anchor-based的网络结构,主要为了解决NuSences数据集中类别不平衡的问题。提出了两种主要方案进行解决:

1)数据增强方面
DS-Sampling:基本思想是把占比较小的类别进行复制,制作出较大数据集,然后针对每个类别用固定比例random sample这个大的数据集,组合出最终数据集,最终数据集的类别密度(类别数量/样本总数)是相近的,这方法可以减缓样本不平均问题。

GT-AUG:将其他场景的GT放在当前场景中,前提是需要进行碰撞测试(这里换了个名字,本质上就是copypaste数据增强)

2)训练策略方面
Class-balanced Grouping:为了解决类別不均衡问题,作者提出Class Grouping的概念,简而言之,将相似形状的类別分成一个群(Group),让该群中样本数量较多的类去提升样本数量较少的类的精度,而每个Group之间的总数量也接近,如此一来,网络在学习时,就能够减缓数量较多类别有主导整个网络的问题。

这里的Group是手工进行区分,主要是透过样本中属于形状进行分组,而且Group之间的样本总数量是相近的。具体分组如下:

  • cars (majority classes)
  • truck, construction vehicle
  • bus, trailer
  • barrier
  • motorcycle, bicycle
  • pedestrian, traffic cone

参考资料:

  1. https://patrick-llgc.github.io/Learning-Deep-Learning/paper_notes/cbgs.html
  2. CBGS : 三维点云物体检测的类平衡分组和采样(新自动驾驶数据集nScenes第一名算法)

3. BirdNet

paper:《BirdNet: a 3D Object Detection Framework from LiDAR Information》

BirdNet主要是对点云在bev上的量化投影稍有不同,这里构建了三个通道,分别是:
1)cell内最高点高度(没有像MV3D那样对高度进行切分)
2)cell内所有点intensity的平均值
3)cell内所有点density进行归一化(这里与MV3D不同,对density除以全部cell中的最大值进行归一化),这里对density进行归一化的目的是改善density这个通道在不同线数激光雷达下剧烈变化的问题

此外,BirdNet在后处理时预测的不是车辆的长和框,而是与坐标轴相平行的车辆外接矩形的外接矩形。然后通过固定每个类别的w,计算每个box的l。
在这里插入图片描述

参考资料:

1. BirdNet: a 3D Object Detection Framework from LiDAR Information


4. StarNet

paper:《StarNet: Targeted Computation for Object Detection in Point Clouds》
结构图:
在这里插入图片描述

StarNet是一个one-stage、anchor-based的网络,思路大致如下所示:
1)首选去除地面点,然后通过最远距离采样得到一些中心点
2)将这些中心点构建局部坐标,在半径R的领域内选取K个点,通过一些列堆叠的StarNet blocks网络进行特征聚合,得到一个384维的特征C
3)对于每个中心点周围放置GxG个anchor,每个anchor的特征是通过C编码成另外一个D维度的特征
4)每个anchor的D维特征与GT进行回归计算

参考资料:

1. StarNet: Targeted Computation for Object Detection in Point Clouds


5. STD

paper:《STD: Sparse-to-Dense 3D Object Detector for Point Cloud》
结构图:
在这里插入图片描述

STD是一个Two-stage、改良的anchor-free网络。核心是提出了球状anchor。球状的anchor无需考虑anhcor方向上的设置,所有在数量上是priors anchor是成倍减少的,减少计算量。考虑到球状的anchor与GT的常规iou并不适用,所以辅助提出了PointIoU,用点的交集/点的并集进行一阶段anhcor的筛选。同时,STD可能受到2d检测的启发,在二阶段的proposal进行nms时,使用的是预测的class以及iou预测值的乘积分数(class*iou)来进行nms。

主要流程:
1)对每个点设置一个球状anchor(只需考虑半径,无需考虑方向以及尺寸),利用PointNet++提取点的语义特征以及类别预测,利用nms获取500个anchor。ps:这里的用什么进行nms没有具体说明,可能是每个点lable的score,但是这里我觉得是对每个球状anchor计算PointIoU来筛选。
2)对于获取的proposal中,利用每一个porposal中的点坐标信息(通过anchor中心位置进行归一化)以及语义特征,输入到PointNet网络中来进行类别分数预测以及回归偏移预测,利用class score以及bev iou的联合nms,获取得到300个proposal。这里所获得的proposal是一个特定大小的长方体。(这里以及利用球状的anchor聚合特征获取到了一个特定的proposal,那么就可以正常与3d标注框进行iou计算,那PointIoU是作用于哪一个步骤呢?所以我推测是用于上面的步骤1的)
也就是说,利用PointIoU筛选出500个球状anchor,再聚合每个球状anchor的信息进行proposal生成,利用bev上的iou进行二次nms筛选,最终一阶段获得300个proposal。
3)对proposal中的每个点以规范坐标(减去中心点坐标以及旋转对其)和语义信息作为初始特征,随后将proposal切分成6x6x6大小的subvoxel,对每个subvoxel采用35个点,对这些点特征进行聚合成256维度,最后说的的维度为:l x w x h x 256
4)对候选框的特征进行展平进行MLP处理,一个分支预测iou值;另一个分支预测类别(class)以及回归值(box),这里的iou乘上class score作为第二阶段的nms筛选指标。另外一种做法是将预测的候选框iou作为class的soft label进行预测处理。

损失部分:
1)RPN
semantic segmentation loss:使用focal loss
proposal prediction loss:两个部分,proposal classification loss采用softmax cross-entropy loss;regression loss采用smooth-l1 loss,其中方向采用bin-based的方法

2)Head
proposal prediction loss:与RPN部分一致
3D IoU loss:多了预测分支预测iou
corner loss:8个角损失,一个很好的正则化手段(很多工作常见,可以说是标配)

总结:
提取球形anchor进行特征点的聚集,又是既PartA2、VoxelRCNN之后对proposal体素化在特征聚集范围上的一个改进,同时提出了新的PointIoU的方法。在head上增加了iou分支,进行nms的筛选指标。作为了一个Point-Voxel-based的方法,同时利用了point-based与voxel-based的优势。

最后,这里如果对voxel化的候选框进行3d稀疏卷积编码处理(类似PartA2或者SECOND的Head结构),可能会进一步提升效果。

参考资料:

1.STD: Sparse-to-Dense 3D Object Detector for Point Cloud


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/61597.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文学习记录——iTPN(2023年CVPR)

论文题目:Integrally Pre-Trained TransformerPyramid Networks 论文地址:https://arxiv.org/pdf/2211.12735.pdf 代码地址:https://github.com/sunsmarterjie/iTPN 一.Introduction 近年来视觉识别领域两个比较重要的成果是:1.用…

记录学习GNU/Linux(1)

目录 1. 【林纳斯托瓦兹】简介 2. 什么是GNU/Linux? 2.1 GNU计划 2.2 GNU/Linux 3. Linux内核版本与发行版本 4. MBR(MS-DOS)主引导记录 5. 计算机系统启动流程 6. 图形界面与命令行模式切换 7. 切换用户 7.1 方式一 7.2 方式二 8. 查看当前目录文件信息…

一、深度学习的基本介绍

机器学习的基本步骤: 前馈运算、反向传播计算梯度、根据梯度更新参数值。 一、定义及基本概念 深度学习,就是一种利用深度人工神经网络来进行自动分类、预测和学习的技术。它可以从海量的数据中自动学习,找寻数据中的特征。所以说&#xff0c…

安卓系统主板链接USB声卡,卡号配置和授权说明

工作中,我们可能会经常遇到不同的声卡主板和系统主板,尤其是在chatGPT 当下正热门的情况下,开发测试语音功能,少不了要用到不同的主板和USB声卡。下面以3399和讯飞声卡配置简单说明下配置方法和步骤: 1、准备工作&…

chatgpt赋能python:如何用Python实现Uno主板烧录

如何用Python实现Uno主板烧录 简介 Arduino Uno是一款基于Atmel AVR处理器的单板微控制器,常用于制作物联网设备、机器人和互动艺术等项目中。在开发过程中,需要将程序烧录到Uno主板上,这样才能让主板运行我们设计的程序。本文将介绍如何使…

为什么 C# 可能是最好的第一编程语言

纵观神州大地,漫游中华互联网,我看到很多人关注为什么你应该开始学习JavaScript做前端,而对blazor这样的面向未来的框架有种莫名的瞧不起,或者为什么你应该学习Python作为你的第一门编程语言,恕不知有多少公司业务是用…

微软CEO纳德拉:AI是人类大脑的加速器

微软CEO纳德拉:AI是人类大脑的加速器! 微软首席执行官(CEO)萨提亚纳德拉日前驳斥了特斯拉创始人埃隆马斯克有关微软控制OpenAI的说法。在接受CNBC采访时,纳德拉表示,马斯克的说法“实际上是不正确的”。他强…

冠达管理:A股大涨后缩量蓄势整固 房地产产业链持续活跃

周三,A股在周二大涨后蓄势整固,三大指数均小幅跌落。昨日商场调整压力主要来自以CPO为代表的AI主线回调;周二领涨的地产股连续强势,基建、城镇化概念股走势活跃;另一领涨主线券商股则略微回落。此外,化工化…

亲戚3.5W入职华为后,我也选择了转行……

我是汽修专业,大学毕业后做了汽车销售,后又转到房产销售,有苦又累,还被冷嘲热讽 …… 学科 | Python大数据开发 校区 | 郑州校区 故事的背景 大家好,我就是故事的男主角。我是对口升学大专生,学习了四年…

水羊转债,超达转债,晓鸣转债上市价格预测

水羊转债 基本信息 转债名称:水羊转债,评级:A,发行规模:6.94987亿元。 正股名称:水羊股份,今日收盘价:13.94元,转股价格:13.71元。 当前转股价值 转债面值 /…

用AkShare获取实盘沪深可转债数据

可转债(英文翻译:convertible bond、convertible debenture或convertible note)。指公司发行的含有转换特征的债券。在招募说明中发行人承诺根据转换价格在一定时间内可将债券转换为公司普通股。转换特征为公司所发行债券的一项义务。可转换债…

【可转债,股票】低频量化之 可转债 配债价格表

目录 待发配债-5批文通过待发配债-4发哥通过待发配债-3交易所受理待发配债-2股东大会通过待发配债-1董事会预案最后 待发配债-5批文通过 代码名称张数股数成本688268华特气体*#0.620015128.0688268华特气体*#1.630022692.0688268华特气体*#2.648736836.7688268华特气体*#3.6674…

会通转债,大元转债上市价格预测

会通转债 基本信息 转债名称:会通转债,评级:AA-,发行规模:8.3亿元。 正股名称:会通股份,今日收盘价:8.61,转股价格:9.33。 当前转股价值 转债面值 / 转股价格…

通达信接口下如何获取可转债品种。

在通达信接口下运行量化策略需要建立自己的标的池,从符合条件的池子里进行筛选出可执行策略的具体标的。 下面简单和大家说一下如何获取关于可转债的数据。 以下是查询可转债的参数组:可以根据各项指标去获取来建立自己的池子,例如财务报表&a…

熊猫头动画人物表情、场景图片、物品抠图等等动画素材总共60GB

正文: 沙雕动画目前非常的火爆,有很多的博主都在用这些相关的资源, 如果你也有过这样的想法,那么好巧。 我知道你缺素材! 分享一波自己在某宝花Q的沙雕动画素材及教程,包含了CTA、PS、AI、Flash等相关文件素材&a…

宝塔面板+轻松部署一款二次元的Web多人在线网络聊天系统fiora聊天室

前言 Fiora是一款偏二次元的Web多人在线聊天应用,是使用Node.js、Mongodb、Socket.io和React编写的,使用起来简洁、方便,在这里使用宝塔面板Fiora安装教程分享给大家。 对于不懂各种程序,不通各类代码新手来说,用宝塔来…

a洋发卡网sadnt模板美化

介绍: 优化了手机模板商品图片以及一些花里胡哨的构造 源码直接替换sadnt模板里面的index.php就行.建议先备份! 网盘下载地址: http://kekewangLuo.net/p4YJHDSfrVc0 图片:

Typecho 免费“魔改官方”模板

这一款主题是基于官方提供的默认模板进行二次魔改,相较于默认模板外观存在很大的改观。 这款主题样式非常的简单,外观也非常简约,没有那么多的各种特效。 重要提示:禁止修改删除版权信息(前台的主题版权信息可以删除&a…

图像超分——Real-ESRGAN快速上手

契源 想必每个自媒体行业从业者都面临过这样一种情况:从网络上找到一张素材做封面,然而素材图片往往太模糊。那么,有没有办法对其进行高清修复呢?这就是计算机视觉领域的子领域图像超分所研究的主要问题。 在我的专业课上&#…

【每周CV论文推荐】基于GAN的图像数据增强有哪些经典论文值得阅读

欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。 当前基于GAN的二维图像生成领域的发展已经非常成熟,GAN不仅可以用于从零生成图像数…