0%

VPD (Visual Perception with a pre-trained Diffusion model)

如何利用大规模数据预训练的Diffusion model来支持下游的Visual perception 任务

image-20230308162613703

Motivation

text-to-image diffusion model通过视觉语言预训练获得了更多的high-level knowledge,大规模text-to-image diffusion model能够生成纹理丰富、内容多样、结构合理的高质量图像,同时具有可组合、可编辑的语义。这一现象暗示了大规模的文本-图像扩散模型可以从大量的图像-文本对中隐式地学习高层次和低层次的视觉概念。

本文旨在研究提取大规模扩散模型所学习到的视觉知识来支持下游的Visual perception 任务。作者提出的VPD框架探索了如何利用pre-trained denoising UNet去为下游视觉感知任务提供语义引导。

与将知识从常规的预训练模型转移到下游视觉感知任务相比,对diffusion model进行transfer learning存在两个挑战:

  • diffusion model和视觉感知任务之间的不兼容性
  • UNet类扩散模型和流行视觉backbone之间的架构差异
Read more »

GAN

保真度高,多样性较差,训练不够稳定(因为需要同时训练两个网络,需要做平衡,否则容易模型坍塌),不是一个概率模型,生成是隐式的(通过一个网络去完成),数学上不如VAE,扩散模型优美

generator生成器:给定一个随机噪声,生成图像

discriminator判别器:将生成器生成的图像与真实图像送入判别器,做0/1二分类

Read more »

A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language Model

github

Motivation

语义分割和CLIP模型是在不同的视觉粒度上执行的,语义分割在像素上进行,而CLIP在图像上进行。为了弥补处理粒度上的差异,本文没有采用基于但阶段FCN的框架,而是采用了两阶段语义分割框架,第一阶段提取mask proposals,第二阶段利用CLIP图像编码器对第一阶段生成的masked image crop进行open-vocabulary分类。

zero-shot & open-vocabulary

狭义的zero-shot learning关注于从已知类的标注数据中学习可迁移的特征表示来表示未知类。Zero-shot语义分割是打破有限类别瓶颈的一种尝试。然而,狭义的zero-shot语义分割通常只使用少量的标记分割数据,而拒绝使用任何其他数据/信息,从而导致性能较差。

open-vocabulary语义分割作为一种广义的zero-shot语义分割,更多地集中于建立一种可行的方法来分割任意类别,并且允许使用除分割数据之外的附加数据/信息。本文提出利用CLIP来完成。

Methodology

Pipeline

本文采用了two-stage的方式,首先通过Selective Search/Maskformer等方法得到class-agnostic的mask proposal,然后再利用CLIP对这个mask对应部分的图像进行分类。图中的pipeline是生成mask proposal之后,用mask和图像逐像素相乘并crop到$224\times 224$,然后输入进CLIP的image encoder得到image embedding,与prompt sentence经过text encoder编码得到的text embedding计算cosine similarity,从而得到整个mask图的分类,实现open-vocabulary semantic segmentation。

image-20230204162815253

Read more »

CVPR2022 TokenCut

Self-supervised Transformers for Unsupervised Object Discovery Using Normalized Cut

使用归一化割的无监督对象发现自监督Transformers

github

Abstract

tokens作为nodes,edge是token间的similarity

使用归一化图割(normalized graph-cut)对前景对象进行分割,对自相似的区域进行分组,使用具有广义特征分解的谱聚类来解决graph-cut问题,并表明第二小特征值对应的特征向量提供了切割结果,因为它的绝对值表示token属于前景对象的可能性。

Introduction

作者提到了两个和Transformer相关的以往的工作

  • DINO(a),使用自蒸馏损失进行训练时,最后一层的class token相关联的attention map表明了显著的前景区域
    • 但这种attention map是嘈杂的,且不清楚是否可以用于无监督的对象发现
  • LOST(b),使用patches的相关关系建立图,使用节点的反度来分割目标,启发式种子扩展策略用于克服噪声并检测前景对象的单个边界框
    • 依赖特定节点的注意力图

表示不同节点关联的attention map包含了有意义的信息(d),本文通过使用特征分解将图投影到低维子空间中来使用整个图中的信息,这种投影可以与归一化切割(Ncut) 一起使用,以显着改善前景/背景分割(c)

image-20220522114301359

Read more »

CutLER

Cut and Learn for Unsupervised Object Detection and Instance Segmentation

利用自监督模型的特性,在无监督的情况下发现对象,并用于训练一个无监督的定位模型。

Motivation

这项工作中,作者研究了无监督的目标检测和实例分割模型,这些模型可以在没有任何人工标记的情况下进行训练。

Key insight: 简单的probing和训练机制可以放大自监督模型的固有定位能力,从而产生最先进的无监督zero-shot detectors。

以往的自监督ViT模型可以无监督检测图像中的单个显著对象,如TokenCut,但这种显著对象检测方法只能定位单个对象,不能用于包含多个对象的真实世界图像。

FreeSOLO和DETReg也旨在进行无监督的多对象检测或多对象发现,但它们依赖于特定的检测架构,且在ImageNet训练过后,还需要在特定域内完成微调,而不能直接应用。

CutLER特点:

  • Simplicity:不受主干架构选择影响(不需要特定的检测架构),易于训练
  • Zero-shot detector:尽在ImagNet上进行训练,直接在11个不同的benchmark上进行zero-shot推理,甚至优于以往使用了特定域内数据的方法
  • Robustness:域适应性很强
  • Pretraining for supervised detection:将CutLER作为预训练模型,提升下游全监督任务性能

Methodology

image-20230130142543886

在ImageNet上训练,直接应用到广泛域上进行分割和检测任务。

Read more »

ECCV2022 OpenSeg

Scaling Open-Vocabulary Image Segmentation with Image-Level Labels

CLIP、ALIGN利用image-level的字幕标签实现开放词汇分类,但无法像素级的分割视觉概念,作者认为这些模型忽略了视觉分组的一个重要步骤,即在学习视觉语义对齐之前将pixels组织成groups。

CLIP

Learning Transferable Visual Models From Natural Language Supervision

基于对比学习在超大规模的图像文本对数据集上进行训练,具有很强的zero-shot推理能力

image-20230109123936814

LSeg

Language-driven semantic segmentation

使用文本信号来做zero-shot的分割,训练过程中是有监督的(在7个分割数据集上训练),文本编码器部分直接使用了CLIP的文本编码器,训练阶段也是冻结的。

language-guided分割,可以应用于图像PS等

image-20230110123813975

Methodology

image-20230110130409500

  • 视觉分支:本方法和有监督的语义分割方法一样,输入图像,提取特征(bottleneck feature),然后upscaling至与原图一样大小,模型输出与ground truth mask做cross entropy loss。图中的$\tilde{H},\tilde{W}$代表降维后的bottleneck feature的高宽。注意训练时是有监督的(7个分割数据集)。
  • 文本分支:输入N个labels(N是随时可以变化的),经过文本编码器得到N个C维的文本特征。为了保证文本编码器的效果,本文直接采用了CLIP的文本编码器,在训练时也是冻结的。
  • 交互:$\tilde{H}\times \tilde{W}\times C$的图像密集特征与$N\times C$的文本特征在$C$这一维度相乘,输出为$\tilde{H}\times \tilde{W}\times N$的特征图,N就是类别数量,经upscaling和可学习的模块调整后与ground truth mask做cross entropy loss。
Read more »

ICML2021 ViLT

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

参考

Background & Motivation

作者将Vision-and-Language Pretraining(VLP)模型分为了4种类型,如下图所示。每个矩形的高表示相对计算量大小,VE、TE和MI分别是visual embedding、text embedding和modality interaction的简写。

image-20230109130250190

作者这样分类的依据为:

  • embedding阶段视觉部分和文本部分的参数量,计算量是否平衡
  • 交互阶段是否有深层的transformer进行交互(如a,b类的交互一般为简单的点积或者浅层的attention层来计算相似性,c,d类交互阶段的计算量更大,本文就属于d)

作者认为以往的VLP模型至少存在两个问题:

  • 效率低,特征抽取阶段占据了比特征交互大得多的计算量
  • 表达能力受限,因为使用预训练的视觉模型来抽取特征,视觉预训练模型本身只是由固定的数据集训练得到,而且这一过程不能实现端到端

以往的VLP算法耗时主要都集中在Visual embedding的部分,ViLT是首个将VE设计的如TE一样轻量的方法,该方法的主要计算量都集中在模态交互上。

Read more »

ECCV2020 DETR

End-to-End Object Detection with Transformers

Motivation

现阶段的目标检测器都是使用间接的方式处理集合预测问题,没有直接做集合预测任务,而是定义回归或者分类问题来替代,以间接方式解决集合预测任务。这些方法性能受限于后处理操作,如NMS。

  • proposals: R-CNN系列工作
  • anchors: Yolo系列工作
  • non-anchor based(window centers): CenterNet,FCOS

DETR去掉了需要人工设计的组件,如NMS和先验anchor,因此DETR框架是非常简洁的,使目标检测变得简单。

Read more »

CVPR2020 MoCo

Momentum Contrast for Unsupervised Visual Representation Learning

github

Motivation

无监督表征学习如GPT和BETR在NLP中取得了成功,但在视觉领域有监督的预训练还是占主导地位,作者分析其原因可能是NLP和CV中信号空间的差异,NLP中的单词句子是离散的,可以用于构建tokenized dictionaries(tokenized可以认为把某一个词对应成某一特征),进而进行无监督学习,但在视觉中,信号是在连续的高维空间中的,并不像单词一样具有很强的语义信息,所以不适合建立一个tokenized dictionaries。

无监督学习训练编码器来实现字典查找,也就是使编码的 “query” 与其匹配的”key”更相似,而与其他”key”特征更不相似。作者认为建立的字典需要满足两个特性:

  • large

    较大的字典能更好地采样底层的连续、高维视觉空间(每一个key就相当于是在特征空间中采样了一个点,采样点越多,越能表示整个特征空间分布)

  • consistent

    字典中的key应该由相同或相似的编码器表示,以便它们与query的对比是一致的,如果使用不同的编码器,则可能只是简单找到了一个由与query分支编码器相似的编码器产生的key,也就是shortcut solution

以往的工作往往受限于这两个方面

Read more »