0%

Monocular 3D Human Mesh Recovery

(a.k.a. 3D human pose and shape estimation) in the deep learning era

主要考虑RGB图片和单目RGB视频(统称为monocular images)作为输入

存在问题

  • 将2D观察提升到3D空间存在固有的模糊性
  • 多变的人体运动结构
  • 与环境复杂的交互

两种范式:

  • 基于优化:以迭代方式显式地将身体模型拟合到2D观察结果,各种数据项和正则化项被探索作为优化目标。
  • 基于回归:利用神经网络强大的非线性映射能力,直接从原始图像像素预测模型参数。

Human Modeling

  • 基于骨架:无法获得人体的表面

  • 基于几何图元(geometric primitives,包括平面矩形,圆柱等):人体模型是手工制作的,不符合实际

  • statistical modeling:为了将密集点云和三角网格从3D扫描转换为水密的(watertight)和可动画(animatable)的3D人体网格,采取三个主要的预处理步骤:

    • template mesh registration: fit a template mesh to the 3D point cloud to deal with holes that the triangulated
      mesh contains

      模板网格配准

    • skeleton fitting: determine the number of joints and the location and axis orientations of rotations for each joint

      骨架匹配:确定关节的数量以及每个关节的旋转位置和轴方向

    • skinning: bind every vertex in the surface to the skeleton for animation

      蒙皮:将曲面中的每个顶点绑定到骨骼以进行动画

image-20230530204208351

Read more »

线性代数的本质

向量究竟是什么?

可以看作ordered list of numbers

向量加法:对应项相加,理解为空间中的移动

向量数乘:scaling,缩放,使用标量scalars和向量相乘完成对向量的缩放,标量和向量的每个分量相乘

Read more »

BEVPerception Survey

参考上海ai lab分享

TPAMI2022 Delving into the Devils of BEVPerception: A Review, Evaluation and Recipe

3D感知中的关键问题

获取准确的深度信息是桥接Camera方法和LiDAR方法的关键:

  • Pseudo-LiDAR Track:利用深度估计,将图像处理为伪点云
  • Center-point Track:根据预测的heatmap回归深度
  • Depth Pretrain:让backbone编码深度信息
  • BEV视角变化:回避直接做depth,在BEV空间下做检测
Read more »

Review of 3D Object Detection for Autonomous Driving

任务目标:三维目标检测可细分为分类和定位两个子任务,通过紧密的三维边界框定位目标,以确定目标的类别、位置、大小、方向等信息

3D数据的不同表示类型

  • 3D点云是由激光雷达对物体表面进行扫描得到的一组无序点的集合,具有不规则性和高度稀疏性,点云是三维空间(xyz坐标)点的集合。

    激光雷达(Light Detection And Ranging, LiDAR)来获取三维点云,除了激光雷达,雷达(Radio Detection and Ranging, Radar)也可以用来获取点云

  • 体素Voxel:体素是3D空间的像素。量化的,大小固定的点云。每个单元都是固定大小和离散坐标,可以理解为固定分辨率的三维栅格地图。

基于图像的三维目标检测

  • Pseudo-LiDAR:从RGB图像生成伪激光雷达,这类方法通常由深度估计和目标检测两个网络组成,首先对RGB图像进行深度估计,然后利用深度将其投影为一个伪激光雷达,最后再像处理点云一样使用三维方法进检测

基于 LiDAR 的三维目标检测

点云数据特点:

  • 提供了三维空间信息,包含了精确的深度和位置信息
  • 点云具有稀疏性、无序性和分布不均性

按照对点云数据的处理方式,可以将基于LiDAR的三维目标检测方法分为:

  • 基于视图的View-based方法
    • 将点云投影为二维视图(如鸟瞰图BEV),然后利用2D目标检测算法进行检测
  • 基于体素的Voxel-based方法
    • 将三维空间划分为均匀的网格,每个网格称为一个体素,将体素内部的点特征编码为体素特征,从而获得规则的网络输入。
  • 基于原始点的Point-based方法
    • 直接对原始点云进行处理
  • 基于点和体素的Point-Voxel-based方法
Read more »

CVPR2023 GLIGEN

GLIGEN: Open-Set Grounded Text-to-Image Generation

image-20230327150803955

Motivation

单独使用文本输入来进行图像生成的可控性较差,缺乏精确定位概念或使用参考图像来控制生成过程的能力。扩散生成模型在大规模的图像文本对上进行训练,模型中已经具有大量的概念知识,是否能在现有的预训练扩散模型基础上,赋予新的条件输入模式?

本文提出的GLIGEN保留文本标题输入的同时,启用了其他模态的输入,在预训练的text-to-image扩散模型基础上,通过不同的条件输入实现了更好的可控性。

关键难点在于,如何在学习新的grounding信息的同时,不遗忘预训练模型中原有的概念知识。为了保留预训练模型的大量概念知识,GLIGEN中冻结了预训练模型的所有权值,并通过门控机制将grounding信息注入到新的可训练层

  • Large scale text-to-image generation models.
    • 仅将标题作为输入,可能难以传达诸如对象的精确位置之类的其他信息
    • 以往模型通常是close-set的
    • 对于关键点等条件输入,attention方式难以控制
  • Image generation from layouts(给定bboxes和物体类别,生成图像,是目标检测的逆任务)
    • 通常是close-set的,只能生成有限类别的目标
    • ReCo对原有模型进行了微调,可能导致知识遗忘

Methodology

image prompt提供更好的style和background参考,也可以作为实体提示

边界框则提升了定位能力和空间概念

可以实现grounded generation和grounded inpainting

OpenSeeD

A Simple Framework for Open-Vocabulary Segmentation and Detection

image-20230320145926431

Motivation

将分割和检测进行联合训练,作者引入了一个预训练的文本编码器来为两个任务中涉及到的视觉概念进行文本编码,为了进一步协调两个任务,作者分析了两个任务的差异:

  • 任务差异:分割需要获得前景和背景的mask,而检测只关心前景目标
  • 数据差异:box和mask两种标注具有不同的空间粒度,因此难以直接互换

实现Open-Vocabulary for both task,Two critical questions:

  • 如何在检测和分割之间传递语义知识
  • 如何填补box和mask之间的监督差距
Read more »

ODISE: Open-vocabulary DIffusion-based panoptic SEgmentation

结合了text-to-image diffusion model和discriminative model(如CLIP)实现全景分割

Motivation

text-to-image diffusion model能够根据任意文本产生高质量的图像,这说明其内部的表征空间与真实世界中的open concepts是高度相关的,其学习到了较好的开放概念的表征。text-image discriminative model如CLIP,擅长将图像进行开放词汇分类。

本文提出利用上述两种模型的冻结特征来进行开放词汇全景分割。

image-20230321114542664

text-image discriminative model如CLIP容易混淆对象之间的空间关系,缺乏对空间和关系的理解,作者认为这是将其用于开放词汇全景分割的主要瓶颈。

Read more »

ICLR2022 ViLD

OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION

Motivation

Object Detection方法是学习去检测数据集中的类别,如果想要增加可检测的类别,通常的做法是增加标签类别,但是类别数增多会对训练样本收集带来更多挑战,对象类别存在长尾问题,罕见类的样本扩充成本高昂。另一方面,图文对则易于获取。ViLD则是想借助于预先训练的CLIP来实现Open-Vocabulary Detection(OVD).

OVD旨在仅使用base classes的detection annotations来训练一个detector,可以检测出文本描述的任意类别,也就是可以从base classes泛化到novel classes

image-20230316142839590

Methodology

ViLD将OVD转换成了两个子问题,并使用Mask RCNN作为baseline:

  • 生成object proposals
  • Open-vocabulary image classification(使用CLIP对cropped object proposals进行分类)

image-20230316143332381

Read more »