CVPR2020 PSOL 伪监督对象定位

Rethinking the Route Towards Weakly Supervised Object Localization

pseudo supervised object localization (PSOL)伪监督对象定位

WSOL的特点

WSOL has the assumption that there is only one object of
the specific category in the whole image

WSOL假设图像中属于特定类别的物体只存在一个（一类一物one object in one class）

相关文章提到了CAM,Grad-CAM,HaS,ACoL,SPG,ADL

关于WSOD：WSOD 没有one object in one class的限制。然而，WSOD 经常需要诸如selective search和edge boxes 等生成区域建议的方法，这将花费大量的计算资源和时间。此外，当前的 WSOD 检测器使用高分辨率输入来输出边界框，导致计算负担沉重。因此，大多数 WSOD 方法难以应用于大规模数据集。

WSOL的缺点：

Localization tries to localize the whole object while classification tries to classify the object. The classification model often tries to localize only the most discriminative part of the object in an image.定位试图定位整个对象，而分类则试图对对象进行分类。分类模型通常试图仅定位图像中对象最具辨别力的部分。
CAM类的方法需要确定阈值

PSOL方法概述

使用DDT-VGG16生成伪标注框(Class-agnostic generated pseudo bounding boxes与类别无关的伪边界框)

使用伪边界框训练localization网络，进行single-class regression (SCR)

另一分支单独训练分类网络

实验结果

对于带噪数据，应使用较大学习率¹

[1]CVPR2018 Joint optimization framework for learning with noisy labels

DDT比WSOL的表现更好的原因：确切的标签可能无助于本地化过程。因此，共定位方法 DDT 将比以前的 WSOL 方法执行得更好。 DDT 是一种与类无关的方法，因此建议 WSOL 应分为两个独立的子任务：与类无关的对象定位和对象分类。

Figure2中可以看到，DDT生成的伪标注框仍是带有大量噪声的，但经过回归后边界框会变得更准确