0%

MM2018 Graphnet

MM2018 Graphnet

Graphnet: Learning image pseudo annotations for weakly-supervised semantic segmentation

通过考虑图像 CNN 特征和图像空间分区之间的双重约束来构建图像上的图。这样的图不仅结合了图像低级局部相关线索和高级语义内容,而且表征了原始图像的自然结构化表示。GraphNet 将类别信息从标记像素传播到未标记像素。

  • WSSS
  • GCN

Methodology

image-20220518171553332

图的构建

把学习一个伪标签看作是标签传播问题(label propagation),传统的DCNN对具有规则网格结构的图像进行操作,很难解决标签传播问题,所以考虑将图像转换为图结构进行标签传播,图表示是通过考虑单个图像的低级线索(例如轮廓、形状)以及空间位置和语义内容的双重约束来构建的。

将超像素作为图结构的节点,超像素提供了一个更大的、局部均匀且连贯的区域,保留了准确分割所需要的大部分结构。本文中使用SLIC进行超像素过分割,产生N个超像素。

提取超像素的特征 Feature Extraction on superpixels

CNN中浅层倾向于学习低级特征(如边缘),深层捕获更多的语义信息,语义分割要求要为每一个像素分配一个语义标签,因此语义特征从一个较深较粗糙的层中提取,本文采用了VGG-16从整张图像提取语义特征,从RELU-5取出特征,并通过双线性插值调整为与原图像相同的大小,最后沿通道维进行超像素池化,得到描述超像素$sp_i$的512维的特征向量 $ x_i$

双重约束 The dual constraints

具有相似特征的两个空间相邻节点通常倾向于属于同一类别。然而,仅依靠空间约束可能会忽略上下文语义交互。作者同时考虑空间信息和语义内容的双重约束来为每个图像构建一个图。

定义图为$G=(V,\Epsilon,A)$

  • $V$中的每个节点 $ v_i$对应一个超像素
  • $E$中的每条边$\varepsilon_{ij}$代表连接两个空间相邻的超像素节点
  • $A$是图邻接矩阵

初始化空间权重矩阵,相邻为1,其他为0,用于描述超像素节点间的空间关系$W_l=[w_{l}^{ij}]_{n\times n}$

image-20220518175638595

使用语义权重矩阵描述所有空间相邻的超像素节点之间的语义相似度,语义权重矩阵定义为,其中

image-20220518180119694

$x_i$指描述超像素的特征向量,h=512,只有相邻的节点才有非0边连接

根据语义权重矩阵从边集$E$中去除相似度较低的边,计算出最终的邻接矩阵 $ A$.为了避免产生孤立节点,利用以下策略取出语义相似度低的边,同时确保图的连通性:

使用阈值$\gamma=u(W_s)-\sigma(W_s)$滤除低语义相似度的边, $ u$代表求均值, $ \sigma$代表求标准差,也就是分别对语义权重矩阵求均值和标准差。如果两节点的语义相似度低于阈值且低于节点的最大语义相似度,就删除这条边,得到最后的邻接矩阵,注意最后使用的邻接矩阵只有0、1两种值:

image-20220518182534557

GraphNet

通过图卷积网络,将少量节点的标签传播到图中未标记的节点,为了能在构建的图上直接进行卷积,引入图拉普拉斯算子:

image-20220518192435533

将邻接矩阵和节点特征作为输入,进行前向传播

image-20220518200018701

使用CE loss在有标签的节点上进行训练

image-20220518194118191

从线标中获取labeled nodes

image-20220518194245107

从框中获取labeled nodes

image-20220518194218621