BEV专栏（一）从BEVFormer深入探究BEV流程（上篇）

前言本文提出了一种基于Transformer和时间结构的Bird's-Eye-View（BEV）编码器，称为BEVFormer。该编码器可以有效地聚合来自多视角摄像机和历史BEV特征的时空特征。

本教程禁止转载。同时，本教程来自知识星球【CV技术指南】更多技术教程，可加入星球学习。

Transformer、目标检测、语义分割交流群

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

从BEVFormer生成的BEV特征可以同时支持多个3D感知任务，例如3D物体检测和地图分割。

背景意义

自动驾驶技术已经成为当前研究热点之一。在自动驾驶系统中，高质量的3D感知是至关重要的。

然而，在实际应用中，由于传感器噪声、遮挡等因素，3D感知任务仍然存在许多挑战。因此，需要一种新颖且高效的方法来解决这些问题。

PipeLine流程

其实和大多数的算法流程一样，BEVFormer的pipeline流程如下：

使用Backbone和Neck（ResNet-101-DCN + FPN）提取环视图像的多尺度特征。
Encoder模块（包括Temporal Self-Attention模块和Spatial Cross-Attention模块），通过论文提出的方法将环视图像特征转换为BEV特征。
类似于Deformable DETR的Decoder模块，完成3D目标检测的分类和定位任务。
正负样本的定义采用了Transformer中常用的匈牙利匹配算法，使用Focal Loss + L1 Loss作为总损失，并最小化该损失。
损失的计算使用Focal Loss分类损失和L1 Loss回归损失，并进行反向传播和更新网络模型参数。

输入数据格式

对于BEVFormer网络模型，输入数据是一个6维张量：（bs，queue，cam，C，H，W）。

其中：

bs表示batch size大小；
queue表示连续帧的数量。由于BEVFormer采用了时序信息的思想，因此输入到网络模型中的数据要包括之前几帧的数据，而不仅仅是当前帧的数据；
cam表示每帧中包含的图像数量。在nuScenes数据集中，一辆车通常带有六个环视相机传感器，可以实现360度全场景的覆盖，因此一帧会包含六张环视图片；
C，H，W分别表示图片的通道数、高度和宽度。

网络特征提取

网络特征提取的目的是为了从每一帧对应的六张环视图像中提取特征，以便于后续将其转换为 BEV 特征空间，并生成 BEV 特征。

BEV 特征产生

生成 BEV 特征的过程中，最核心的部分是论文中提出的 Encoder 模块，其中包括 Spatial Cross-Attention 和 Temporal Self-Attention。在这两个模块中，都使用了一个非常关键的组件：多尺度可变形注意力模块。

这个模块将 Transformer 的全局注意力变为局部注意力，以减少训练时间并提高 Transformer 的收敛速度。

Temporal Self-Attention的作用是将时序信息（如插图中的历史 BEV）与当前时刻的 BEV Query 进行融合，以提高 BEV Query 的建模能力。

Spatial Cross-Attention的作用是利用 Temporal Self-Attention 模块输出的 bev_query，对主干网络和 Neck 网络提取到的多尺度环视图像特征进行查询，生成 BEV 空间下的 BEV Embedding 特征。

Decoder模块

以上过程中，利用了当前帧之前所有帧的特征迭代修正，以获得prev_bev的特征，因此在使用 Decoder 模块进行解码之前，需要对当前时刻的 6 张环视图片同样使用 Backbone + Neck 提取多尺度特征，并使用上述 Temporal Self-Attention 模块和 Spatial Cross-Attention 模块的逻辑来生成当前时刻的bev_embedding特征。然后，将这部分特征输入到 Decoder 中进行 3D 目标检测。