BEVPerception Survey
TPAMI2022 Delving into the Devils of BEVPerception: A Review, Evaluation and Recipe
3D感知中的关键问题
获取准确的深度信息是桥接Camera方法和LiDAR方法的关键:
- Pseudo-LiDAR Track:利用深度估计,将图像处理为伪点云
- Center-point Track:根据预测的heatmap回归深度
- Depth Pretrain:让backbone编码深度信息
- BEV视角变化:回避直接做depth,在BEV空间下做检测
BEV感知的核心问题:
- 如何通过从透视图到BEV的视图转换来重建丢失的3D信息
- 如何在BEV网格中获取真值标注
- 如何制定流水线,纳入来自不同来源和视图的特征
- 当传感器配置在不同场景中不一样时,如何适应和推广算法
General BEV Perception
基于输入数据,将BEV感知研究主要分为三个部分——BEV摄像机、BEV激光雷达和BEV融合。
- BEV摄像机表示仅有视觉或以视觉为中心的算法,用于从多个周围摄像机进行三维目标检测或分割
- BEV激光雷达描述了点云输入的检测或分割任务
- BEV融合描述了来自多个传感器输入的融合机制,例如摄像头、激光雷达、全球导航卫星系统、里程计、高清地图、CAN总线等。
发展脉络
Methodology of BEV Perception
BEV Camera
single-camera setting, stereo setting, multi-camera setting使用不同的技术来解决深度问题
General Pipeline
基于BEV相机的感知pipeline如图所示,包含三个部分:
- 二维特征提取(使用一个2D Feature Extractor进行特征提取)
- 视图变换(view transformation): 编码3D信息
- 从2D特征预测深度信息
- 从3D空间采样2D特征
- 3D解码器
View Transformation
2D和3D的空间转换
- 从3D到2D投影,3D空间中的多个点会投影到同一个点上
- 从2D到3D,缺失深度信息,不能对应到3D空间中某一个点上
解决View Transformation的两种方法
- From 2D to 3D prior:预测深度
- Lift, Splat, Shoot,深度分布
- Pseudo-LiDAR,稠密深度
- From 3D to 2D prior:
- 根据3D到2D的投影,采样一个局部区域的2D特征来构成3D特征
- DETR3D
- 显式的BEV feature
- 隐式的3D Positional Embedding
- 根据3D到2D的投影,采样一个局部区域的2D特征来构成3D特征
BEVFormer
显式的BEV feature的好处:
- 适合多任务学习:3D目标检测和地图语义分割
- 可迁移性强:常用的2D检测头,都可以通过很小的修改迁移到3D检测上
注意力机制
时序线索的作用:
- 使用时序可以解决遮挡问题,提高召回率
- 定位更加准确
- 速度估计更加精确
多任务有好有坏
BEVFormer++
Future
工业界:
- 模型设计
- 传感器信息融合
- 聚焦三维真值获取
- 模型计算效率提升(车端,剪枝,量化,部署)
学术界:
- 模型设计
- BEV感知/建图/多任务
- BEV空间中的端到端感知决策一体化
- 数据集Benchmark
- 支持BEV感知/多任务