[Paper] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

Abstract: This blog post offers an overview of the 2022 paper “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers” by Zhiqi Li and colleagues at Shanghai AI Laboratory, introducing a Transformer-based encoder for unified BEV features in autonomous driving without explicit depth reliance. It explains the principles of grid-shaped BEV queries with spatial cross-attention for multi-view aggregation and temporal self-attention for recursive history fusion; the CNN-plus-encoder structure with task heads for detection and segmentation; implementation details like deformable sampling and ego alignment; and experimental highlights on nuScenes, including state-of-the-art NDS (56.9%), improved velocity estimation, and occlusion handling.

这篇论文解决的是自动驾驶感知的痛点：怎么从多相机2D图像生成统一的鸟瞰图（BEV），支持检测和地图分割。论文巧妙结合了Transformer和时空信息，不靠深度估计，避免了累积误差，还能处理时序数据。为什么实用？因为BEV是规划的桥梁，能统一多任务。

背景和动机

自动驾驶感知离不开3D理解，比如检测物体或分割地图。相机便宜，长距识别强，却难从2D转3D。传统单目方法独立处理每视图，融合差；BEV方法流行，但多靠深度估计（如LSS），易出错，影响检测准度。论文认为Transformer的注意力能动态聚合特征，不用硬深度先验，就能学BEV。

另一个点是时序：人类开车靠视频推测速度和遮挡，但多相机检测少用时间信息。简单栈帧费算力，还干扰。作者想用BEV桥接时空，像RNN隐状态，递归传历史信息。动机：设计不靠深度的BEV生成器，支持多任务，高效用时空数据，提升低可见度下的召回和速度估计。

核心原理：网格查询 + 时空注意力

BEVFormer的核心是时空Transformer，用网格BEV查询（queries）动态查空间/时间，聚合特征。见下图。

网格BEV查询：预定义网格状查询（像DETR的对象查询），每个代表BEV一格。查询不靠深度，靠注意力灵活学表示。
空间交叉注意力：每个查询从感兴趣区域（ROI）提取多相机特征。ROI用相机内外参投影3D点到2D视图，采样特征点。变形注意力（Deformable Attention）高效，只采样关键点，避免全局算。
时间自注意力：递归融合历史BEV。当前查询attend前帧BEV（对齐ego运动），传时序线索。益处：估速准，识遮挡物，低开销。

原理上，BEVFormer避深度敏感，用注意力学时空关联。BEV统一表示，多任务友好。

模型结构：时空Transformer编码器

结构是CNN backbone + BEVFormer编码器 + 任务头。输入多相机图像（可选多帧）。

CNN Backbone：ResNet或VoVNet提取多视图特征，加位置编码。
BEVFormer编码器：L=6层，每层时空模块：
1. 时间自注意力：查询attend历史BEV（初始空）。
2. 空间交叉注意力：查询采样多视图ROI特征。
3. FFN：前馈网络，加残差+Norm。
任务头：BEV输出接Deformable DETR头检测，或mask解码器分割。

整体递归：当前BEV存历史，下帧用。像视频Transformer，但BEV桥接高效。

实现细节

实现基于PyTorch，超参：BEV 200×100 (0.5m分辨)，查询网格50×30。采样点K=4，注意力头8。训练：AdamW，nuScenes 24epoch，aug如翻转。时间融合用前6关键帧，ego对齐。扩展：加占用头或规划。

细节上，ROI投影用内外参，采样用双线性。历史BEV存4-6帧，推理实时。

实验部分

实验在nuScenes上测。BEVFormer-ResNet101在test集NDS 56.9%（感知综合分），比之前SOTA高9点，和LiDAR基线平齐。检测mAP 45.1%，速度估mAVE 0.409m/s低。时序益处：低可见（夜/雨）召回高10%+，速度准因历史。消融：时空模块各+3-5 NDS。地图分割mIoU 62.0%，超之前。

这些结果显示BEVFormer在相机感知上追LiDAR，时空设计实用。

感想

读BEVFormer，觉得它桥接时空的思路优雅，简化多相机感知，它影响了BEVFormer v2等。