BEV专栏(一)从BEVFormer深入探究BEV流程(上篇)

前言 本文提出了一种基于Transformer和时间结构的Bird's-Eye-View(BEV)编码器,称为BEVFormer。该编码器可以有效地聚合来自多视角摄像机和历史BEV特征的时空特征。

本教程禁止转载。同时,本教程来自知识星球【CV技术指南】更多技术教程,可加入星球学习。

Transformer、目标检测、语义分割交流群

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

从BEVFormer生成的BEV特征可以同时支持多个3D感知任务,例如3D物体检测和地图分割。

背景意义

自动驾驶技术已经成为当前研究热点之一。在自动驾驶系统中,高质量的3D感知是至关重要的。

然而,在实际应用中,由于传感器噪声、遮挡等因素,3D感知任务仍然存在许多挑战。因此,需要一种新颖且高效的方法来解决这些问题。

PipeLine流程

其实和大多数的算法流程一样,BEVFormer的pipeline流程如下:

  • 使用Backbone和Neck(ResNet-101-DCN + FPN)提取环视图像的多尺度特征。

  • Encoder模块(包括Temporal Self-Attention模块和Spatial Cross-Attention模块),通过论文提出的方法将环视图像特征转换为BEV特征。

  • 类似于Deformable DETR的Decoder模块,完成3D目标检测的分类和定位任务。

  • 正负样本的定义采用了Transformer中常用的匈牙利匹配算法,使用Focal Loss + L1 Loss作为总损失,并最小化该损失。

  • 损失的计算使用Focal Loss分类损失和L1 Loss回归损失,并进行反向传播和更新网络模型参数。

输入数据格式

对于BEVFormer网络模型,输入数据是一个6维张量:(bs,queue,cam,C,H,W)。

其中:

  • bs表示batch size大小;

  • queue表示连续帧的数量。由于BEVFormer采用了时序信息的思想,因此输入到网络模型中的数据要包括之前几帧的数据,而不仅仅是当前帧的数据;

  • cam表示每帧中包含的图像数量。在nuScenes数据集中,一辆车通常带有六个环视相机传感器,可以实现360度全场景的覆盖,因此一帧会包含六张环视图片;

  • C,H,W分别表示图片的通道数、高度和宽度。

网络特征提取

网络特征提取的目的是为了从每一帧对应的六张环视图像中提取特征,以便于后续将其转换为 BEV 特征空间,并生成 BEV 特征。

BEV 特征产生

生成 BEV 特征的过程中,最核心的部分是论文中提出的 Encoder 模块,其中包括 Spatial Cross-Attention 和 Temporal Self-Attention。在这两个模块中,都使用了一个非常关键的组件:多尺度可变形注意力模块。

这个模块将 Transformer 的全局注意力变为局部注意力,以减少训练时间并提高 Transformer 的收敛速度。

Temporal Self-Attention的作用是将时序信息(如插图中的历史 BEV)与当前时刻的 BEV Query 进行融合,以提高 BEV Query 的建模能力。

Spatial Cross-Attention的作用是利用 Temporal Self-Attention 模块输出的 bev_query,对主干网络和 Neck 网络提取到的多尺度环视图像特征进行查询,生成 BEV 空间下的 BEV Embedding 特征。

Decoder模块

以上过程中,利用了当前帧之前所有帧的特征迭代修正,以获得prev_bev的特征,因此在使用 Decoder 模块进行解码之前,需要对当前时刻的 6 张环视图片同样使用 Backbone + Neck 提取多尺度特征,并使用上述 Temporal Self-Attention 模块和 Spatial Cross-Attention 模块的逻辑来生成当前时刻的bev_embedding特征。然后,将这部分特征输入到 Decoder 中进行 3D 目标检测。

算法创新

使用Transformer和时间结构来聚合时空信息

BEVFormer使用Transformer和时间结构来聚合来自多视角摄像机和历史BEV特征的时空信息。

具体来说,BEVFormer使用预定义的网格状BEV查询与空间/时间特征进行交互,以查找并聚合时空信息。这种方法可以有效地捕获3D场景中物体的时空关系,并生成更强大的表示。

使用查询来查找空间/时间空间并相应地聚合时空信息

除了使用Transformer和时间结构来聚合时空信息外,BEVFormer还使用查询来查找空间/时间空间并相应地聚合时空信息。

具体而言,BEVFormer使用两种类型的注意力机制:一种是用于跨摄像机视图之间的注意力机制(即“Spatial Cross-Attention”),另一种是用于历史BEV特征之间的注意力机制(即“Temporal Self-Attention”)。

这些注意力机制可以帮助BEVFormer有效地捕获3D场景中物体之间的关系,并生成更好的表征。

适用于多个3D感知任务

从BEVFormer生成的BEV特征可以同时支持多个3D感知任务,例如3D物体检测和地图分割。

这意味着,使用BEVFormer可以减少需要为不同任务训练不同模型的工作量,并提高系统整体性能。

实验结果

实验结果表明,在KITTI数据集上进行评估时,BEVFormer相比其他现有方法具有更好的性能,表现出较高的3D物体检测和地图分割能力,为自动驾驶系统中的3D感知任务提供了一种新颖且高效的解决方案。

文末

本文提出了一种基于Transformer和时间结构的Bird's-Eye-View(BEV)编码器,并证明了其在多个3D感知任务中具有优异性能,所以可以看出该工作还是十分突出的。

 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

模型部署交流群:732145323。用于计算机视觉方面的模型部署、高性能计算、优化加速、技术学习等方面的交流。

其它文章

上线一天,4k star | Facebook:Segment Anything

3090单卡5小时,每个人都能训练专属ChatGPT,港科大开源LMFlow

Efficient-HRNet | EfficientNet思想+HRNet技术会不会更强更快呢?

实践教程|GPU 利用率低常见原因分析及优化

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

目标检测创新:一种基于区域的半监督方法,部分标签即可(附原论文下载)

CNN的反击!InceptionNeXt: 当 Inception 遇上 ConvNeXt

神经网络的可解释性分析:14种归因算法

无痛涨点:目标检测优化的实用Trick

详解PyTorch编译并调用自定义CUDA算子的三种方式

深度学习训练模型时,GPU显存不够怎么办?

CV各大方向专栏与各个部署框架最全教程整理

计算机视觉入门1v3辅导班

计算机视觉各个方向交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31121.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

攀登造芯之路:玄铁已出,生态为王

作者:老G先生 相传玄铁重剑,由“天外流星”即玄铁制成,乃通体玄铁,剑身如墨,透出赤色红光,剑体隐约有黑洞吸力,乃武林至尊,重达八八六十四斤 ,独孤求败,四十岁…

惹打工人“暴怒”!科技公司 CEO 放话:“只想赚钱和朝九晚五的别来!”

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 试想一下:当一家科技公司 CEO 高调声明,“我司正在招人,但如果你工作只是为了赚钱、或期待朝九晚五的话,请别来”,听到这句话时&#xff0c…

王小川新公司开源 70 亿参数量的中英文预训练大模型,可商用;谷歌要求员工慎用 AI,即便是自己家的 Bard|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

聚观早报|奔驰接入ChatGPT聊天机器人;极兔速递提交上市申请书

今日要闻:奔驰接入ChatGPT聊天机器人;极兔速递向港交所提交上市申请书;微软股价创历史新高;美电动卡车Nikola宣布裁员23%;马斯克:人工智能具有颠覆性 奔驰接入ChatGPT聊天机器人 梅赛德斯 - 奔驰表示&…

chatgpt赋能python:如何用Python拦截广告

如何用Python拦截广告 广告是互联网信息时代经济运行的重要组成部分,但大量广告的滥用也给用户带来了很多困扰,如虚假广告、侵犯用户隐私、浪费时间等。为了提高用户的使用体验,可以使用Python编写脚本拦截广告。本文将介绍如何使用Python从…

chatgpt赋能python:Python为何会存在这么多广告?

Python为何会存在这么多广告? Python语言是一种非常流行的编程语言,不仅在科学计算、数据分析、人工智能领域得到了广泛应用,也成为了许多公司的首选语言,因为它的简单易学、易读易写、高效易用,可谓是一款非常出色的…

微软ATP智汇十二道场论坛(北京专场)顺利举办

AI技术的发展正在逐渐引领产业的变革,在企业智能化转型过程中,如何让人工智能技术赋能企业? 2023年3月3日下午,微软ATP智汇十二道场 探索AI 驱动转型论坛顺利召开。该活动由微软与苏州人工智能产业创新中心共同举办,特…

MySQL这几本书,初学者必看!

《高性能MySQL》第四版发布后,收到了很多读者的反馈,其中关注最多的是作为一个初学者,应该如何能够较为系统的学习MySQL,从而应对日常工作或者获得更好的职业发展。于是和多个业内朋友讨论后,整理了一些MySQL学习的推荐…

Android短信会话(查看会话记录以及会话详情界面)---短信管家3

看一下上一篇,其实是有缺陷的,我们在载入联系人的时候是放在主线程中做的(比较耗时),所以界面会卡住。推荐使用异步查询来解决 这一篇我们谈短信会话: 首先看一下效果图 这个是所有会话的列表&#xff08…

chatgpt赋能python:Python自动化:如何用Python完成自动化任务

Python自动化:如何用Python完成自动化任务 随着技术的进步,自动化已经成为了许多企业和团队的必备工具。自动化可以帮助你节省大量时间和精力,也能帮助你提高工作效率。在这方面,Python是一种强大的工具语言,许多人都…

LLM系列 | 16: 如何基于LangChain打造联网版ChatGPT?

简介 连雨不知春去,一晴方觉夏深。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖锅盔的小男孩。汇总下之前撰写的ChatGPT Prompt工程和应用系列文章: 11:LangChain危矣?亲测ChatGPT函数调用功能&#…

【9】数据可视化:基于 Echarts + Python 实现的动态实时大屏 - 酒店行业

目录 精彩案例汇总 效果展示 1、动态效果图 2、实时分片数据图 3、丰富的背景样式 一、 确定需求方案 1、确定产品上线部署的屏幕LED分辨率 2、功能模块 3、部署方式: 二、整体架构设计 三、编码实现 (基于篇幅及可读性考虑,此处展…

pyecarts动态交互图表-可视化大屏

早在几年前动态可交互的图表已经流行,在各公司前台、大厅都展示着漂亮的可视化大屏,本文简单介绍一个简单好用的动态可交互图表工具-pyecharts,并使用pyecharts制作一个简单的图表大屏,先附上部分动图效果: gif动图 附…

秀一波酷炫可视化大屏!

开局一张图,社会人小猪佩奇镇楼! 开局两张图,你永远无法想到的效果,竟然是用帆软大屏模板实现的! 开局三张图,带自动播放效果及3D动画特效的数据可视化! 开局五张图,离屏内容交互&am…

Unity+chatgpt+webgl实现声音录制+语音识别

一、前言 AI二次元女友这个项目持续更新,在window端的语音识别和语音合成的功能,在上一篇博文里已经详细说明了微软Azure语音服务的代码实现。也是为了实现一次代码,多端复用这样的诉求,所以全部的代码实现都改成了web api的方式…

OpenAI CEO中国首次演讲,称未来十年出现超强AI系统!AGI安全治理是重点

来源 | 新智元 硅谷独角兽,又来震撼世界了! 这支名叫Character Technologies的独角兽的核心力量,来自前谷歌LaMDA团队。 大模型研究测试传送门 GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问…

首周下载量碾压ChatGPT!谷歌20年老员工叛逃,创立第二个OpenAI?

来自:新智元 进NLP群—>加入NLP交流群 【导读】这款爆火的AI聊天新宠,首周下载量就碾压了ChatGPT。更有意思的是,产品背后的独角兽,就是谷歌的前LaMDA团队。婉拒劈柴,出走谷歌,这是要走向人生巅峰了&…

韩启德院士:关于生死,我向ChatGPT提了一个问题

来源:学术世界 图源:pexels 第五届北京大学清明论坛今天开幕了,我衷心祝贺! 前四届论坛都取得了成功,讨论越来越深入,社会影响越来越广泛。人们对死亡由忌讳到热议,实质是大家对生命和人生意…

如何从零开始构建一个网络讨论帖分类模型?

Motivation 前几天搭建了一个对牛客网每天最新的工作信息进行爬取的程序,见牛客网爬虫,但从网上爬取下来的帖子有很多不是工作信息,需要把这部分干扰信息给排除掉,否则很影响使用心情。之前使用关键词与正则表达式进行了简单过滤…

chatgpt赋能python:Python画图设置指南

Python画图设置指南 引言 Python是一种高级编程语言,在数据科学及数据可视化领域中越来越受欢迎。Python拥有众多的绘图库,例如matplotlib和seaborn。但是,你需要花费时间和精力在图的布局、颜色、字体等方面的调整上,以提高图表…