0%

CVPR2019 ADL

CVPR2019 ADL

Attention-based Dropout Layer for Weakly Supervised Object Localization

WSOL性质

仅使用图像级标签来学习对象的位置,不使用位置标注

ADL方法概述

image-20220427191238143

将feature map通过Channelwise Pooling生成Self-attention map

从Self-attention map中获得2个掩码:

  • 设置阈值,得到Drop mask
  • sigmoid,得到Importance map

随机选择其中一个掩码,作为当前iteration的掩码

Drop mask会遮盖掉最具判别性的区域,使网络获取目标的整体范围,提高localization accuracy

Importance map会突出信息区域以提高模型的识别能力,提高classification能力

ADL优势

Hide-and-Seek (HaS) 将输入图像划分为网格状的补丁,并随机选择要擦除的补丁。虽然随机选择简单快速,但它不能有效地擦除最具辨别力的部分。ADL与之相比可以更有效擦除最具判别性的区域。

还有其他的擦除方法,增加了很多额外的计算量,而ADL没有增加可学习参数,增加的计算量很少

ADL可以有效地识别和擦除最具辨别力的区域,而无需辅助分类器、重新训练或额外的前后传播 。

ADL模块仅会在训练中使用,可以很容易的和弱监督语义分割框架结合

与Acol和SPG的对比

ACoL 在主干特征提取器中并行添加了两个辅助分类器,用于查找目标对象中最具辨别力的部分。ADL可以在没有附加分类器的情况下找到最具辨别力的部分,这样效率更高。

SPG是一种利用对象和背景的空间分布的新 WSOL 技术。分类器可以使用该分布作为辅助监督来学习对象的整体范围。ADL与 SPG 的不同之处在于 SPG 不会擦除对象中最具辨别力的部分。此外,SPG 需要大量的计算资源来提高定位精度

实验结果

数据集

ImageNet-1k 包括各种各样的类,其中特定类型的背景与目标对象同时出现。在这种情况下,背景具有一定的辨别力。因此,模型很可能在最有区别的部分被丢弃时学习背景特征。同时,由于 CUB-200-2011 的所有类别都属于鸟类,因此无论类别如何(例如天空、树),都会出现相似的背景。换句话说,这个数据集的背景几乎与类无关,因此背景不是一个判别区域。结果,尽管最具辨别力的部分被隐藏了,但模型并没有从背景中学习特征。

所以在CUB上的结果更好

CUB-200-2011

C. Wah, S. Branson, P . Welinder, P . Perona, and S. Belongie. The Caltech-UCSD birds-200-2011 dataset. Technical Report CNS-TR-2011-001, California Institute of Technology, 1, 4, 7

全是鸟类,细粒度分类,判别性区域小

ImageNet-1k

Metrics

Top-1 classification accuracy (Top-1 Clas)

Localization accuracy with known ground-truth class (GT-known Loc): IOU取0.5

Top-1 localization accuracy (Top-1 Loc)

缺陷

从失败案例中,我们观察到分类器从与目标对象频繁出现的背景中提取判别特征。在雪地摩托类的情况下,目标对象经常与雪同时出现。 vanilla 模型只关注雪地摩托,而带有 ADL 的模型不仅学习雪地摩托,还学习雪和树。这是因为经常与对象一起出现的背景可能是判别力较低的区域。