0%

MetaFormer : A Uniﬁed Meta Framework for Fine-Grained Recognition

Posted on 2023-07-04 Edited on 2023-07-03 In paper

MetaFormer

MetaFormer : A Uniﬁed Meta Framework for Fine-Grained Recognition

细粒度视觉分类（FGVC）是一种需要识别属于一个超类别的多个从属类别的对象的任务

Motivation

FGVC的主流方法主要关注如何使网络关注于最具判别性的区域，这类方法将受人类观察行为启发的定位的inductive bias引入到具有精细结构的神经网络。当一些物种在视觉上难以区分时，人类专家经常使用视觉之外的信息来帮助他们进行分类，所以仅使用视觉信息来完成细粒度分类是不合理的

最近的最先进的方法通常设计复杂的学习pipeline来解决这个任务。然而，仅凭视觉信息往往不足以准确区分细粒度的视觉类别。元信息（例如，时空先验、属性和文本描述）通常与图像沿着出现，MetaFormer旨在使用一个统一而简单的框架来利用各种元信息来辅助细粒度的识别。

Methodology

Hybrid Framework

使用卷积来获取视觉信息，用transformer编码meta information和融合信息

由于Transformer的self-attention是置换不变的，不能有效的利用输入序列中token的顺序，因此作者在计算attention时引入了relative position bias $B$:

$\operatorname{Attention}(Q, K, V)=\operatorname{SoftMax}\left(Q K^{T} / \sqrt{d}+B\right) V$

所有额外的tokens（除了图像tokens以外的所有）都共享一个相对位置偏置

Meta Information

地理坐标系转换为直角坐标系
时间映射

属性作为meta information时，将属性转换为词向量

Experiments

Datasets

iNaturalist2017
iNaturalist2018
iNaturalist2021
CUB-200-2011
Stanford Cars
Aircraft
NABirds

Meta Information

CVL
KERL