0%

BEVPerception Survey

BEVPerception Survey

参考上海ai lab分享

TPAMI2022 Delving into the Devils of BEVPerception: A Review, Evaluation and Recipe

3D感知中的关键问题

获取准确的深度信息是桥接Camera方法和LiDAR方法的关键:

  • Pseudo-LiDAR Track:利用深度估计,将图像处理为伪点云
  • Center-point Track:根据预测的heatmap回归深度
  • Depth Pretrain:让backbone编码深度信息
  • BEV视角变化:回避直接做depth,在BEV空间下做检测

BEV感知的核心问题:

  • 如何通过从透视图到BEV的视图转换来重建丢失的3D信息
  • 如何在BEV网格中获取真值标注
  • 如何制定流水线,纳入来自不同来源和视图的特征
  • 当传感器配置在不同场景中不一样时,如何适应和推广算法

General BEV Perception

基于输入数据,将BEV感知研究主要分为三个部分——BEV摄像机、BEV激光雷达和BEV融合。

  • BEV摄像机表示仅有视觉或以视觉为中心的算法,用于从多个周围摄像机进行三维目标检测或分割
  • BEV激光雷达描述了点云输入的检测或分割任务
  • BEV融合描述了来自多个传感器输入的融合机制,例如摄像头、激光雷达、全球导航卫星系统、里程计、高清地图、CAN总线等。

image-20230421131122067

发展脉络

image-20230418112704040

Methodology of BEV Perception

BEV Camera

single-camera setting, stereo setting, multi-camera setting使用不同的技术来解决深度问题

General Pipeline

基于BEV相机的感知pipeline如图所示,包含三个部分:

  • 二维特征提取(使用一个2D Feature Extractor进行特征提取)
  • 视图变换(view transformation): 编码3D信息
    • 从2D特征预测深度信息
    • 从3D空间采样2D特征
  • 3D解码器

image-20230421131908083

View Transformation

2D和3D的空间转换

  • 从3D到2D投影,3D空间中的多个点会投影到同一个点上
  • 从2D到3D,缺失深度信息,不能对应到3D空间中某一个点上

image-20230418113012481

解决View Transformation的两种方法

  • From 2D to 3D prior:预测深度
    • Lift, Splat, Shoot,深度分布
    • Pseudo-LiDAR,稠密深度

image-20230418214652782

image-20230418214834188

image-20230418215029665

image-20230418215102690

  • From 3D to 2D prior:
    • 根据3D到2D的投影,采样一个局部区域的2D特征来构成3D特征
      • DETR3D
      • 显式的BEV feature
    • 隐式的3D Positional Embedding

image-20230418215325873

image-20230418215433877

BEVFormer

image-20230418215639006

显式的BEV feature的好处:

  • 适合多任务学习:3D目标检测和地图语义分割
  • 可迁移性强:常用的2D检测头,都可以通过很小的修改迁移到3D检测上

image-20230418220104581

注意力机制

image-20230418220208966

时序线索的作用:

  • 使用时序可以解决遮挡问题,提高召回率
  • 定位更加准确
  • 速度估计更加精确

image-20230418220320826

多任务有好有坏

image-20230418220436440

BEVFormer++

Future

工业界:

  • 模型设计
  • 传感器信息融合
  • 聚焦三维真值获取
  • 模型计算效率提升(车端,剪枝,量化,部署)

学术界:

  • 模型设计
    • BEV感知/建图/多任务
    • BEV空间中的端到端感知决策一体化
  • 数据集Benchmark
    • 支持BEV感知/多任务