CVPR2020 正确评估WSOL
Evaluating Weakly Supervised Object Localization Methods Right
WSOL与WSOD,WSSS的特点
从输入输出看,给定输入图像,SS语义分割模型生成逐像素类预测 ,OD对象检测模型输出一组具有类预测的边界框,实例分割模型预测一组带有类和实例标签的不相交掩码。另一方面,OL对象定位假设图像包含单个类别的对象,并在来自感兴趣类别的对象周围生成二进制掩码或边界框。
本文对WSOL的理解
自 WSOL 开创性的类激活映射 (CAM) 工作以来,该领域一直专注于如何扩展注意力区域以更广泛地覆盖对象并更好地定位它们。然而,这些策略依赖于完全本地化监督来验证超参数和模型选择,这在 WSOL 设置中原则上是被禁止的。
作者认为CAM后的各种方法对WSOL任务的提升依赖于超参和模型的选择,这样的人工选择其实引入了监督信息
WSOL is ill-posed
什么时候出现ill-posed?
如果背景线索与目标标签的相关性比某些前景线索更强,则定位任务无法解决,即使我们知道图像级标签 Y 的确切后验 p(Y |X).和鸭⼦经常同时出现的背景,⽐如⽔,可能⽐鸭⼦的脚得分更⾼
解决
针对适定 WSOL 的以数据为中心的解决方案:我们可以增加 (1) 正样本 (Y = 1) 与更多较少代表的前景线索(例如,有脚的鸭子图像)和 (2) 负样本 (Y = 0)具有更多与目标相关的背景线索(例如,具有水背景的非鸭子图像)。这种以数据为中心的方法是 WSOL 未来的发展方向。
本文提出的评估指标Metrics
PxAP(需要像素级标注)
由像素级的precision和recall计算得到pixel average precision
MaxBoxAcc
IOU阈值取0.5时即GT-known localization accuracy,定位框通过最大连通量确定
MaxBoxAccV2
在IOU阈值取0.3,0.5,0.7时的性能均值
定位框考虑所有估计框集和所有真实框集之间的最佳匹配
数据集与超参确定
- ImageNetV2
- CUB(从Flickr收集了1000张图片用于train-fullsup)
- OpenImages instance segmentation subset
随机搜索超参优化
对超参的可行空间进行随机搜索,避免人为选定参数引入的先验
semi-weakly-supervised object localization
将弱监督和全监督结合起来,考虑Few shot learning的方法