0%

BMVC2021 LOST

BMVC2021 LOST

github

LOST在无监督单目标发现(左),多目标发现(中),目标检测(右)中的应用,在目标检测应用中,LOST发现的对象将被聚类到类别中,然后使用据类标签来训练经典的对象检测器

image-20220521111109107

Introduction

通常使用区域建议作为输入,无监督对象发现利用来自整个图像集合的信息并探索图像间相似性以无监督方式定位对象

Our localization method stays at the level of a single image, rather than exploring inter-image similarity, which makes it linear w.r.t. the number of images and thus highly scalable.

我们的定位方法停留在单个图像的级别,而不是探索图像间的相似性,这使其成为线性 w.r.t。图像的数量,因此具有高度可扩展性。依赖于自监督transformer的强大功能,并且只考虑图像内的相似性,本方法可以用很少的计算在单个图像中定位对象。

主要工作:

  • 利用自监督预训练transformer提取特征,使用图像中补丁的相关性提出一种对于一张图片的单目标定位方法,这一方法关于数据集大小具有线性复杂度。
  • 利用它来训练与类无关和类感知的无监督对象检测器,能够准确地定位每个图像的多个对象,并且在类感知的情况下,将它们分组到语义一致的类中
  • 在无监督对象发现方面以显着优势超越了最先进的技术
  • Object detection with limited supervision
  • Object discovery
  • Transformers
  • Self-supervised learning (SSL)

Methodology

概述

将感兴趣的图像分成大小相等的块并将其提供给 DINO 模型。本文使用了最后一个注意力层的key component来计算不同patch之间的相似性,而不是cls token。这样做的目的是使得可以通过选择较少的相似patches来定位目标的一部分,称为seed。seed选取的标准是基于经验观察(empirical observation):前景目标内的patches彼此之间的相关性高于与背景patches之间的相关性。接着向初始的seed添加与之高度相关的其他patches,称为seed expansion。最后通过计算每个image patch和所选的seed patches的相似性来构造一个二值分割掩码,并将对象的边界框推断为紧密包围该掩码中包含initial seed的最大连通分量的框。

使用定位框作为训练标签来训练一个与类别无关的对象检测器,能够得到一个更准确的对象定位模型,能够检测图像中的多个对象。作者将此任务称为无监督的与类别无关的对象检测unsupervised class-agnostic object detection (尽管被称为无监督,但它可能会求助于自监督)。

通过使用聚类技术将局部对象分组到视觉一致的类别中,能够在没有任何人工监督的情况下,使用预测的对象位置及其集群 ID 作为真实标注训练具有类别意识的对象检测器。我们将此任务称为无监督(类别感知)对象检测unsupervised (class-aware) object detection。

LOST

作者假设图像中至少有一个对象,并且 LOST 尝试在给定输入特征的情况下定位其中一个对象。为此,它依赖于选择可能属于某个对象的patches。我们称这些patches为“seeds”。

Initial seed selection

种子的选择策略基于以下假设:

  • 前景目标内的patches彼此之间的相关性高于与背景patches之间的相关性
    • 经验观察到,把transformer feature作为patch的representation满足这一假设,对象中的patches彼此正相关,但与背景中的patches负相关
  • 一个单独对象覆盖的区域少于背景,因此图像中相关性很小的patch属于对象的概率更高
    • 基于这一假设,作者通过选择与其他patches正相关数量最少的patch作为种子seed $p^*$

对于一张图像,首先建立一个描述patch间的相似度的graph,用二元对称邻接矩阵表示

image-20220521140158367

也就是说,两个节点$p,q$的特征 $ f_p,f_q$正相关,则通过无向边连接。然后将度(degree)最小的patch作为初始seed $p^*$

image-20220521151828884

图中第二行的红色点就是在图像中选取的初始seed $p^$,灰色代表和 $ p^$相似的patches,也就是$f_p^Tf_q\geq即a_{pq}=1$。最后一行表示的是每个patch的反度图(inverse degrees)$ 1/d_p$,从黄色到蓝色代表从degree从低到高,种子点就是degree最低的点。可以发现degree最低的patch最有可能落入物体中,与 $ p^$正相关的少数块也可能属于同一个对象。

image-20220521154701237

Seed expansion

作者依靠经验观察来实现这一步骤,即对象内的像素往往呈正相关并且在graph中具有较小的度数。选取与种子点正相关且度数最低的k个patches,k的典型值是100

image-20220521162619457

Box extraction

将图像所有patch和种子区域S的特征比较,计算掩码

image-20220521163156037

也就是说平均而言,如果token q 的特征 fq 与 S 中的token的特征正相关,则token q 被视为对象的一部分。为了去除最后一个虚假的相关补丁,我们最终选择 m 中的连通分量包含初始种子,并使用该组件的边界框作为检测到的对象。图 3 提供了种子扩展前后检测到的框的图示。

Limitations

  • 重叠实例无法分离
  • 当目标占据图像的大部分时违背了第二个假设