0%

AAAI2020 RRM

AAAI2020 Reliability Does Matter: An End-to-End Weakly Supervised Semantic Segmentation Approach

Introduction

单阶段精度不如两阶段算法,两阶段往往先产生高质量的分割掩码,然后使用伪标注作为全卷积语义分割网络的训练标签进行训练。但两阶段方法为产生高质量伪标注掩码,往往比较复杂。

本文提出端到端方法Reliable Region Mining (RRM),包括两个分支,一个生成伪标注,另一个生成语义分割结果。与以往方法中发掘更完整的物体区域不同,RRM选取高置信度的物体、背景区域,然后通过CRF获取更可靠的区域,作为语义分割分支的监督。在有限像素作为监督的情况下,本文提出了一种称为密集能量损失的正则损失,它与逐像素交叉损失配合来优化过程。

Methodology

RRM分为两个平行分支,分类分支和语义分割分支,共享一个backbone,同时更新网络。

  • 分类分支:生成可靠的语义分割掩码
  • 语义分割分支:使用联合损失函数,包括交叉熵损失和密集能量损失。交叉熵损失主要考虑标记像素,而密集能量损失则通过充分利用RGB颜色和像素位置来考虑所有像素

image-20220513105709337

分类分支

首先计算CAM,对最后一个卷积层进行GAP,然后使用全连接层进行分类,然后使用全连接权重加权最后一个卷积层来重新获得每个类的heat map,最后三层卷积使用了空洞卷积(dilated convolution)。使用多尺度的原始图像,生成更稳定的CAM。

image-20220513113417862

背景类使用AffinityNet中提到的背景类CAM生成方法

image-20220513113536432

在得到CAM原始区域后,进行dense CRF,生成reliable CAM label,其中255代表类标签尚未确定,然后最终的reliable label是CRF label和reliable CAM label的交集。

image-20220513142936184

image-20220513114226967

分割分支

分割分支与分类分支共享相同的backbone,使用联合损失进行优化:

image-20220513115511054

其中cross entropy loss,针对所有标记了的像素(可靠区域):

image-20220513115849562

注意$i \in \Phi$代表ce loss只在值不等于255的可靠区域内进行计算, $ P^{c}_{net}(i)$是网络在i像素处的预测概率,上式就是一个标准的交叉熵损失

为了对那些未标记的区域进行预测,引入dense energy loss,同时考虑RGB和空间位置

Efficient relaxations for dense crfs with sparse higher-order potentials.

image-20220514135042254

其中$E(i,j)$是CRF loss,对于两个像素i,j,如果位置相近,颜色相近,预测出不同类别,就要进行惩罚:

image-20220514135110482

对CRF loss进行加权,reliable region会有更小的权值,也就是主要针对非reliable region。

image-20220514141301283