Meta Omnium

Meta Omnium是一个跨多个视觉任务的数据集，包括识别，关键点定位，语义分割和回归。提供统一框架，用于以一致的方式在广泛的视觉应用中评估meta-learners

现有的benchmarks仅测试meta-learners在分类或密集预测等任务中学习的能力。Meta Omnium独特地测试了元学习者跨多种任务类型学习的能力。
涵盖多个视觉领域（从自然图像到医学和工业图像）
提供了全面评估分布内和分布外泛化的能力
明确的超参数调整和模型选择协议，以促进元学习算法之间的公平比较
具有适中的计算成本，使其可用于资源适度的大学和大型机构的研究

传统的within-task meta-learning benchmarks更多地依赖于共同的表征学习而不是learning-to-learn，Meta Omnium更好地测试了learning-to-learn的能力，因为组成的任务需要更多样化的表征

baseline具有最小的task-specific decoders，评估learning-to-learn的能力，而不是融入先验

Data Splits and Tasks

对于每个主要任务（分类，分割，关键点定位），数据集都被分为seen datasets（用于meta-training）,unseen datasets（用于out-of-domain meta-validation and meta-testing）。

seen datasets按照类别将其划分为meta-train/val/test

unseen不划分，数据集中所有类别都会被用于validation和testing

每个任务对应多个数据集，实线框代表seen datasets，虚线框代表unseen datasets
The seen (ID) datasets are divided class-wise into meta-train/meta-val/meta-test splits.
The unseen datasets are held out for out-of-distribution (OD) evaluation.
Meta-training is conducted on the ID-meta-train split of the seen datasets (blue).
Models are validated on ID validation class splits, or OOD validation datasets (green).
Results are reported on the ID test class splits and OOD test datasets (orange).
另外还保留了regression task来评估新任务上的泛化性，regression任务中的数据集在meta-training时并没有被使用

两种训练范式：

Single-task meta-learning：在一个特定task family内进行训练和测试，评估meta-learning的效果
Multi-task meta-learning：在所有的task families上进行训练，评估meta-learning的效果

两种评估方式：

Within-distribution generalization (ID): How well do meta-learners generalize to novel test concepts within
the seen datasets?
Out-distribution generalization (OOD): How well do meta-learners generalize to novel concepts in unseen datasets?

Datasets and Metrics

Classification

选择Meta-Album中的10个datasets，每个数据集包含19-706类，图片大小为$128 \times128$，每个类别有40张图像。其中3个数据集被保留用于out-of-distribution meta-validation，4个数据集用于out-of-distribution meta-test

Segmentation

将FSS1000用于in-distribution，包含10000张图像，1000个类
FSS1000结合VizWiz用于OOD meta-validation，包含862张图像，22个类
modified Pascal5i（包含7242张图像，6个类）和医学图像数据集PH2（包含200张图像，3个类）用于meta-testing
所有图像都被resize为$224\times 224$
在进行few-shot learning时排除了与FSS1000数据集类别重叠的类，因此所有数据集之间没有重叠的类

Keypoints

animal-pose for in-distribution，包含5个动物类别，超过4k张图像中的6k个实例,每个动物都被从原图像中crop出来。cat和dog用于训练，horse和sheep用于in-domain validation，cow用于in-domain testing
synthetic animal-pose for OOD meta-validation,用从随机背景上的各种视点和照明渲染的动物CAD模型生成合成图像。在最终的数据集中只保留马和老虎类别。
MPII human-pose for OOD meta-testing,包括约40k人超过25k张带有人体关节点标注的图像
所有图像都被resize到$128\times128$

Regression

ShapeNet1D，预测航向角，总共包含30个类别，我们从测试集中保留了3个类别
ShapeNet2D，具有航向角和俯仰角的2D旋转，ShapeNet2D的测试集总共包含300个类别，每个类别30张图像
Distractor，预测目标物体位置，它总共包含12个类别，测试集有2个类别，每个类别包含1000个对象，每个对象有36个图像
Pascal1D，预测航向角，整个Pascal1D包含来自10个类别的65个对象。测试集包含15个对象，每个对象具有100个图像
所有图像都被resize到$128\times128$

Yixuan Pan's Blog

Meta Omnium: A Benchmark for General-Purpose Learning-to-Learn