0%

Few-Shot Learning

参考shusenwang 讲解

support set不足以训练神经网络,只是在做预测的时候提供一些额外信息。使用大的数据集来训练一个模型,训练目的是让模型知道事物的异同

小样本学习也是一种meta learning,learning to learn

与监督学习的区别:

传统的监督学习的测试样本来自于已知类别,few-shot learning的测试样本来自未知的类别

k-way n-shot:

  • k-way:support set有k个类别
  • n-shot:每个类别有n个样本,one-shot就是只有一张图片

与比赛不同,few shot learning中,设定query是属于surrport set的,而比赛中是需要判断是不是已知类的
siamese网络的训练:

  1. 使用正负对进行训练,正对(同一类别)的两个样本的相似度标记为1,负对为0.将样本对输入到同一个网络,提取特征,对特征求差值,得到的特征向量表示两个图片得到的特征向量的区别,然后再送进全连接层,得到一个标量,加上sigmoid进行归一化,得到一个表示similarity的预测值,使用预测值sim和标签(正对为1,负对为0)做crossentropy
  2. 使用triplet loss,训练时每次选取3个样本,一个anchor,一个positive,一个negative,让anchor和positive在特征空间的距离更近,anchor和negative在特征空间的距离更远
Read more »

对比学习串烧

参考

基于对比学习的方法通过使相同实例的相似样本或各种增强彼此接近,而不相似实例彼此远离来学习特征表示。

基于相似性的自监督学习方法如BYOL,通过最小化同一实例的不同增强之间的距离来学习特征表示,并且仅使用正样本对。

InstDisc

Unsupervised Feature Learning via Non-Parametric Instance Discrimination

提出了个体判别代理任务,和NCE loss结合进行对比学习,取得了不错的无监督表征学习结果,还提出使用memory bank来存储负样本,并对特征进行动量更新(Proximal Regularization)

image-20221115103115579

Read more »

CVPR2022 CCAM

C^2^AM: Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and Semantic Segmentation

Github

Motivation

observation

  • 前景对象的语义信息通常与背景不同
  • 具有相似外观的前景对象或具有相似颜色/纹理的背景在特征空间中具有相似的表示

Methodology

image-20221029114900284

Architecture

利用moco或detco在ImageNet-1k上对编码器(如ResNet或VGG)进行预训练,作为编码器的初始化。首先通过编码器获取图像高级特征图$Z_i$,作为解纠缠器(distentangler)的输入,然后使用一个$3\times3$ conv + batch normalization组成的激活头$\varphi(\cdot)$来获得类别无关的激活图$P_i$, $ P_i$被指定为前景,背景激活图可以表示为$(1-P_i)$。然后利用前景激活图和背景激活图将特征图 $ Z_i$分离为前景和背景的特征表示:

$\mathbf{v}_{i}^{f}=\mathbf{P}_{i} \otimes \mathbf{Z}_{i}^{\top}, \quad \mathbf{v}_{i}^{b}=\left(1-\mathbf{P}_{i}\right) \otimes \mathbf{Z}_{i}^{\top}$

$\mathbf{P}_{i}$ and $\mathbf{Z}_{i}$ are flattened, i.e., $\mathbf{P}_{i} \in \mathbb{R}^{1 \times H W}$ and $\mathbf{Z}_{i} \in \mathbb{R}^{C \times H W}$,

$\mathbf{v}_{i}^{f} \in \mathbb{R}^{1 \times C}$ and $\mathbf{v}_{i}^{b} \in \mathbb{R}^{1 \times C}$ . $\otimes$ and $\top$ indicate the matrix multiplication and transpose, respectively.

Read more »

CVPR2022 CLIMS

Cross Language Image Matching for Weakly Supervised Semantic Segmentation

github

Motivation

CAM通常仅激活判别性对象区域,并且错误地包含许多与对象相关的背景。WSSS模型仅可用一组固定的image-level对象标签进行训练,因此很难抑制由开放集对象(open set objects)组成的不同的背景区域。

WSSS往往由3个阶段:

  • 训练并产生CAM
  • 细化CAM,生成伪标签
  • 使用伪标签训练一个分割网络

由于在close-world setting中,和目标密切相关的背景有助于目标对象的分类,比如背景铁轨和目标对象火车,这会导致CAM不必要的激活背景,此外,CAM还会struggles in the underestimation of object contents。这限制了初始CAM的质量。

CLIM框架的核心思想是引入自然语言监督来激活更完整的对象区域并抑制密切相关的开放背景区域

Methodology

image-20221030152534660

Read more »

CVPR2014 R-CNN

Rich feature hierarchies for accurate object detection and semantic segmentation

Methodology

image-20221008155509842

首先模型输入为一张图片,然后在图片上提出了约2000个region proposal

在提取region proposal时,R-CNN采用了selective search。selective search的核心是一个SVM,首先将图像分割为若干块,然后利用SVM将属于同一对象的块合并在一起。

然后通过卷积神经网络逐个提取region proposal的特征,对于每一个region proposal都会得到一个4096维的特征向量

R-CNN直接使用了AlexNet,在ImageNet上进行分类训练

然后这些被提取的特征通过支持向量机(SVM)进行分类(每个类别一个SVM),得到物体的类别,并通过一个bounding box regression调整目标包围框的大小。

实际包含两个子步骤,一是对特征向量进行分类(需要根据特征训练分类器);二是通过边界回归(bounding-box regression) 得到精确的目标区域,受 DPM 的启发,作者训练了一个线性的回归模型,这个模型能够针对候选区域的 pool5 数据预测一个新的 box 位置。

Read more »

TPAMI2022 WSSS/WSIS综述

A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction

语义分割 semantic segmentation

实例分割 instance segmentation

全景分割 panoptic segmentation

bridging the gap between weak supervision and dense prediction

Read more »

CVPR2017 OICR

Multiple Instance Detection Network with Online Instance Classifier Refinement

Motivation

WSDDN存在的问题:

最终图像分类分数是proposals分数的加权和。深度网络即使只“看到”对象的一部分也可以正确分类图像,因此排名靠前的proposals可能无法满足标准的对象检测要求(ground truth 和预测框之间的 IoU>0.5)

  • 对于类内差别大的物体(如人、猫等),proposal得分高的往往是仅包含数据集中图片中物体相对变化较小的部分(如脸部),往往只是对象的一个局部区域,所以检测器更倾向于聚焦在物体的局部区域
  • 如果同个类别有多个物体,其中一个物体特别显著,就会导致这个物体的proposal得分相对其他的同类别物体的proposal得分造成碾压,这样就会丢失其他物体。

Motivation:目标检测器可能仅捕获到了对象的一部分,但与检测到的部分高度空间重叠的proposals可能会覆盖整个对象,或者至少包含对象的较大部分。

Our motivation is that, though some detectors only capture objects partially, proposals having high spatial overlaps with detected parts may cover the whole object, or at least contain larger portion of the object.

作者提到需要解决的两个问题:

  • 如何初始化实例标签
  • 如何有效地训练instance classifier实例分类器

Methodology

image-20220916154316891

Read more »

CVPR2016 WSDDN

Weakly Supervised Deep Detection Networks

Background&Motivation

MIL交替执行对象外观学习和区域选取

MIL 策略导致非凸优化问题:在实践中,求解器往往会陷入局部最优解,因此解的质量很大程度上取决于初始化。

WSDDN提出了一个端到端的WSOD方法,同时执行区域选择和分类,将CNN与MIL结合

Methodology

image-20220913210126800

Read more »

BMVC2021 LOST

github

LOST在无监督单目标发现(左),多目标发现(中),目标检测(右)中的应用,在目标检测应用中,LOST发现的对象将被聚类到类别中,然后使用据类标签来训练经典的对象检测器

image-20220521111109107

Introduction

通常使用区域建议作为输入,无监督对象发现利用来自整个图像集合的信息并探索图像间相似性以无监督方式定位对象

Our localization method stays at the level of a single image, rather than exploring inter-image similarity, which makes it linear w.r.t. the number of images and thus highly scalable.

我们的定位方法停留在单个图像的级别,而不是探索图像间的相似性,这使其成为线性 w.r.t。图像的数量,因此具有高度可扩展性。依赖于自监督transformer的强大功能,并且只考虑图像内的相似性,本方法可以用很少的计算在单个图像中定位对象。

主要工作:

  • 利用自监督预训练transformer提取特征,使用图像中补丁的相关性提出一种对于一张图片的单目标定位方法,这一方法关于数据集大小具有线性复杂度。
  • 利用它来训练与类无关和类感知的无监督对象检测器,能够准确地定位每个图像的多个对象,并且在类感知的情况下,将它们分组到语义一致的类中
  • 在无监督对象发现方面以显着优势超越了最先进的技术
Read more »