0%

Navigating to Objects Specfied by Images

This Image Goal Navigation task requires reasoning over the relation of objects in the scene (e.g., disambiguating between instances of similar appearance) and exploring efficiently to discover where the goal is (e.g., entering bedrooms while searching for the bed).

sub-tasks

  • exploration
  • goal instance re-identification
  • goal localization
  • local navigation

image-20231008111603939

  • Image Goal Navigation(ImageNav) exits ambiguous image goals (e.g., captures of nondescript walls) and is detached from potential user applications
  • instance-based ImageNav task(InstanceImageNav)
    • goal images depict an object instance
    • goal images are independent of agent embodiment
  • limitations of end-to-end methods
    • high sample complexity
    • overfitting
    • poor sim-to-real transfer
    • skills relating to visual scene understanding, semantic exploration, and long-term memory tend to be difficult to learn end-to-end
Read more »

CaFo

Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

  • 利用GPT-3基于人工设计的模板产生文本输入,用于提示CLIP
  • 通过DALL-E生成合成图像,据特定领域的文本为不同类别生成额外的训练图像,以扩展少量训练数据
  • 引入可学习的缓存模型,自适应地混合来自CLIP和DINO的预测

image-20231001184509576

Read more »

Detect Every Thing with Few Examples

使用vision-only的DINOv2作为backbone从少量图像样本中学习新类别

Motivation

开放词汇表对象检测通过用其类别名称的language embedding来表示每个类而取得了显著的成功,但作者认为使用语言作为类别的表示存在局限性:

  • 某些对象很难仅用语言准确描述,或缺乏简洁的名称
  • 视觉概念和语言之间的联系是不断发展的,而不是静止的,而Open Vocabulary模型只能链接在语料库中先前连接的对象和名称
  • 当图像注释可用时,基于语言的分类不会利用图像注释

image-20230926150349068

Few-shot object detection,部分方法需要在新类别上微调,限制了应用,且few-shot方法的效果不如open-vocabulary效果

作者对于open-set,open-vocabulary,few-shot的概念理解

image-20230926150848054

Read more »

三维模型的表示形式有3种:体素模型、网格模型和点云模型。体素是三维空间中的正方体,相当于三维空间中的像素;网格是由多个三角形组成的多面体结构,可以表示复杂物体的表面形状;点云是坐标系中的点的集合,包含了三维坐标、颜色和分类值等信息

image-20230920163138281

Read more »

3D-OVS

3D Open-vocabulary Segmentation with Foundation Models

image-20230918172000959

Motivation

  • ScanNet的场景和物体类别都非常有限,因此不适合直接用于训练一个open vocabulary model
  • OpenScene避免了对3D数据集的需要,但是它继承了2D模型的局限性,这些2D模型(如LSeg,RegionCLIP)通常使用有限文本标签的封闭词汇数据集进行微调,从而显著地损害开放词汇表属性,特别是对于具有长尾分布的文本标签

Achieve precise and annotation-free 3D open-vocabulary segmentation by distilling knowledge from two pre-trained foundation models (CLIP&DINO) into NeRF without finetuning on any close-vocabulary dataset.

  • CLIP产生的image-level features不适合pixel-level的分割任务,以往在封闭词汇数据上对CLIP进行微调以获得像素级特征的方法破坏了CLIP本身的开放词汇特性

  • CLIP图像特征通常与文本描述[2]具有模糊的相似性,需要对其进行正则化以实现准确的开放词汇分割

    [2] LERF: Language Embedded Radiance Fields

  • DINO生成特征图,而不是explicit segmentation maps,需要从DINO features中提取出有利于精确分割的必要信息

Read more »

LERF

LERF: Language Embedded Radiance Fields. ICCV2023 Oral

https://www.lerf.io/

image-20230918205505583

Motivation

人类使用自然语言描述一个特定的3D位置通常会从以下角度出发:

  • visual appearance
  • semantics
  • abstract associations
  • actionable affordances

NeRF是一个colorful desity field,但是没有语义信息,基于NeRF建立3D场景交互界面受到限制

LERF在NeRF基础上加了一个language field,输入位置和尺寸,输出CLIP特征。在训练时,使用从training views的image crops中获得的多尺度CLIP特征来训练language field。

这使得CLIP编码器捕获不同尺度的图像上下文,从而将相同的3D位置与不同尺度的不同language embeddings(例如,不同的语言嵌入)相关联。如“器皿”与“木勺”)

LERF构建的3D表示language field是视角无关的,可以用不同的文本提示查询,而无需每次重建底层表示,将多个视点融合到单个共享场景表示中,而不是按图像操作。

Read more »

OpenScene

CVPR 2023 OpenScene: 3D Scene Understanding with Open Vocabularies

https://pengsongyou.github.io/openscene

在复杂的3D场景中识别对象材料可利用性活动房间类型,所有这些都使用同一个模型进行训练,而不需要任何标记的3D数据,引入了开放词汇3D场景理解任务,arbitrary text queries are used for semantic segmentation, affordance estimation, room type classification, 3D object search, and 3D scene exploration

image-20230918100919261

Motivation

给定一个带有一组位姿以及RGB信息的三维网格或点云,目标是推断每个三维点的语义、可利用性、功能和物理特性

Given a 3D mesh or point cloud with a set of posed RGB images, the goal is to infer the semantics, affordances, functions, and physical properties of every 3D point

例如,在上图中所示的房子中,我们想要预测哪些表面是风扇的一部分(语义)、由金属制成(材料)、在厨房内(房间类型)、一个人可以坐的地方(可利用性)、一个人可以工作的地方(功能),以及哪些表面是软的(物理特性)。

Answers to these queries can help a robot interact intelligently with the scene or help a person understand it through interactive query and visualization.

挑战:

  • 传统的3D场景理解模型通过针对特定任务设计的基准数据集的监督训练而得到的(例如,针对20个类别的封闭集合的3D语义分割)。它们每个都设计用于回答一种类型的查询(这个点是在椅子、桌子还是床上吗?),但对于训练数据稀缺的相关查询(例如,分割罕见的物体)或没有3D监督的其他查询(例如,估计材料特性),提供的帮助很少

Key idea

compute dense features for 3D points that are co-embedded with text strings and image pixels in the CLIP feature space

为了实现这一目标,作者建立了3D场景中的3D点与位姿图像中的像素之间的关联,并训练一个3D网络,使用CLIP像素特征作为监督来编码3D点。这种方法将3D点与特征空间中的像素对齐,进而与文本特征对齐,从而实现对3D点的开放词汇查询。

Read more »

三维场景点云理解与重建

点云特征提取与匹配

三维卷积能够处理规则化的体素数据,但是相较于二维图像,处理体素这种表示方式需要的计算资源呈指数级增长。并且,三维结构是稀疏的,这导致体素这一类表示方式会造成大量的计算资源浪费。面对大场景分析任务时,体素将不再适合。

相反,点云这种无规则表征能够简单有效地表示稀疏的三维数据结构,以下是对点云特征提取相关研究的介绍。

传统点云特征提取

传统点云特征提取借助三维点云的局部几何信息进行编码生成几何算子,作为点云局部几何特征。

一个好的三维算子应该具备:

  • 可描述性:能够提供充足的可描述内容来区分两个不同的表面
  • 鲁棒性:对模型引入的噪声和变化不敏感
  • 紧密性

常见方式:

  • 利用局部几何统计量来表示局部表面不同的性质,如通过累计特定域(例如点坐标,几何属性)当中,几何的或者拓扑的量化值(例如点的数量)构建统计直方图,用于表示几何特征。
    • 空间分布统计算子,统计局部区域内点云分布状态
    • 几何属性统计算子,计算局部表面上点的几何属性(如法向量,曲率)统计直方图来表示特征
Read more »

Introduction

NeRF

image-20230915102835546

  • NeRF (Neural Radiance Fields: Representing Secenes as Neural Radiance Fields for View Synthesis),把场景表达为神经辐射场的形式,来做新视角合成。它本质上是两个简单的全连接的MLP,用来拟合空间位置和视角方向,到该点体密度和RGB值的映射。具体过程如图所示。第一个网络$f_\sigma$输入空间位置$x$,输出这一空间位置的体密度$\sigma$,同时还输出一个特征向量$e$。用第二个网络$f_c$估计RGB值,这个RGB值是和视角相关的,因为材质、光照、反射等等条件的影响,同一个位置的颜色会根据观察角度的不同而变化。把视角$d$和体密度网络$f_\sigma$输出的特征向量$e$一起输入网络$f_c$,得到RGB。

image-20230915103344731

image-20230915103751971

  • 体渲染(volume rendering): 在渲染一张图像的时候,从相机光心生成采样射线,射线上取采样点,使用MLP计算体密度σ和RGB,用一个可微的渲染公式把所有采样值求和获得一个像素值。像素值和ground truth求loss,优化MLP的参数。

  • 体渲染公式:模拟光线在真实世界中的传播。体密度类似于不透明度,实际上不透明度是公式第二行的alpha。对于传统的点云或者TSDF类似的表达是存在遮挡现象的,也就是我们知道一个像素或者一个空间点的RGB值,但不知道沿着视线方向这个点背后的情况,所以模型或者地图往往会有空洞,没法做新视角合成。而NeRF能够通过预测不透明度或者说体密度获得整条射线上所有采样点的情况,并且进行训练优化,让那些被遮挡的地方也能学到正确的体密度和RGB值,从而完成新视角合成。

  • NeRF的优缺点:

    • 优点是连续的场景表达,照片级的新视角合成,可编辑。因为我们输入网络的位置xyz可以不受分辨率限制,可以是任意值,就看NeRF学的细不细致了,所以是连续的场景表达。为了学到高频的细节NeRF还对位置和方向进行正弦编码,让比较靠近的位置之间有着差别很大的编码
    • NeRF的缺点包括训练数据需求大,模型无法泛化,地图难以扩展,训练慢,渲染慢。对于一个物体的模型往往需要上百张图片训练一两天的时间,渲染一张图片也得几十秒,而且换个模型就得重新训练,因为最终获得的模型其实是MLP里面的参数,换个场景就得换个MLP。也正因为是一个MLP,所以很难去扩展地图。MLP的拟合能力终究有限,给它一系列的场景图片去训练,它往往更倾向于记住后续到来的数据,这也被称作遗忘问题。
Read more »