0%

Multi-Modal Classifiers for Open-Vocabulary Object Detection

MM-OVOD

Multi-Modal Classifiers for Open-Vocabulary Object Detection

Motivation

直接用类别名加模板送入pretrained text encoder,然后用text embbeding代替传统检测器中的分类器的方法存在3个弊端:

  • 可能存在语义歧义,且完全依赖预训练的文本编码器对于class name的内部表征,无法区分同一词汇表示的多种概念
  • 有的情况下用户并不知道class name,反而exemplar images更容易获取
  • 多模态输入时,exemplar images可以作为文本描述的很好的补充(比如复杂的图案,文本难以描述,但图像更直观)

Methodology

使用Detic作为baseline,centernet2作为检测器

image-20230716103805727

Text-based Classifiers from Language Descriptions

  • 使用“What does a(n) {class name} look like?”作为prompt,利用GPT3对每个类别生成10个描述
  • 送进CLIP的文本编码器提取文本特征
  • 使用10个文本特征的平均特征作为这个类别的text-based classifier
  • 在训练detector时,对于训练集里的类别,文本特征是提前抽好的,CLIP部分是冻结的
  • 需要注意,文本端直接使用了平均特征,而没有像图像分支使用一个transformer结构的aggregator对特征进行聚合(实验发现这样做对OVOD的性能并没有提升)

image-20230716104851749

Vision-based Classifiers from Image Exemplars

  • CLIP的视觉编码器用于提取图像特征,训练过程中保持冻结
  • 使用transformer结构来作为visual aggregator对图像特征进行聚合,将CLS token作为vision-based classifier
  • After applying some human effort, our IED(Image Exemplars Dictionary) contains at least 40 image exemplars for 1110 (92% of LVIS classes) and at least 10 image exemplars for all LVIS classes.
  • The visual aggregator is trained offline i.e. it is not updated during detector training
    • 使用对比学习对visual aggregator进行离线训练,最小化同类embedding距离,最大化不同类embedding距离
    • 损失函数采用contrastive InfoNCE loss
    • visual aggregator训练期间,对于类别c,在每次迭代时,由冻结CLIP图像编码器对两组不同的K个样本进行采样、增强和编码。这两个集合分别输入到visual aggregator,从类c的可学习[CLS]token输出2个embedding进行对比学习
  • visual aggregator应该很好地泛化,并且不针对特定的下游OVOD词汇表进行训练,因此使用数据集用于图像分类ImageNet-21k-P,其中包含11 K类的11 M图像。

image-20230716115215586

Constructing Classifiers via Multi-Modal Fusion

除以模,然后相加

we simply compute the vector sum of our l2-normalised text-based and vision-based classifiers

$\mathbf{w}_{\mathrm{MM}}^{c}=\frac{\mathbf{w}_{\mathrm{TEXT}}^{c}}{\left|\mathbf{w}_{\mathrm{TEXT}}^{c}\right|_{2}}+\frac{\mathbf{w}_{\mathrm{IMG}}^{c}}{\left|\mathbf{w}_{\mathrm{IMG}}^{c}\right|_{2}}$

Experiments

Datasets and Evaluation Protocol

LVIS数据集包含MS-COCO数据集中10万张图像中1203个类的类、边界框和mask标注

image-20230716135731989