0%

Meta Omnium: A Benchmark for General-Purpose Learning-to-Learn

Meta Omnium

Meta Omnium是一个跨多个视觉任务的数据集,包括识别,关键点定位,语义分割和回归。提供统一框架,用于以一致的方式在广泛的视觉应用中评估meta-learners

image-20230711162435776

  • 现有的benchmarks仅测试meta-learners在分类或密集预测等任务中学习的能力。Meta Omnium独特地测试了元学习者跨多种任务类型学习的能力。
  • 涵盖多个视觉领域(从自然图像到医学和工业图像)
  • 提供了全面评估分布内和分布外泛化的能力
  • 明确的超参数调整和模型选择协议,以促进元学习算法之间的公平比较
  • 具有适中的计算成本,使其可用于资源适度的大学和大型机构的研究

传统的within-task meta-learning benchmarks更多地依赖于共同的表征学习而不是learning-to-learn,Meta Omnium更好地测试了learning-to-learn的能力,因为组成的任务需要更多样化的表征

baseline具有最小的task-specific decoders,评估learning-to-learn的能力,而不是融入先验

Data Splits and Tasks

对于每个主要任务(分类,分割,关键点定位),数据集都被分为seen datasets(用于meta-training),unseen datasets(用于out-of-domain meta-validation and meta-testing)。

seen datasets按照类别将其划分为meta-train/val/test

unseen不划分,数据集中所有类别都会被用于validation和testing

  • 每个任务对应多个数据集,实线框代表seen datasets,虚线框代表unseen datasets
  • The seen (ID) datasets are divided class-wise into meta-train/meta-val/meta-test splits.
  • The unseen datasets are held out for out-of-distribution (OD) evaluation.
  • Meta-training is conducted on the ID-meta-train split of the seen datasets (blue).
  • Models are validated on ID validation class splits, or OOD validation datasets (green).
  • Results are reported on the ID test class splits and OOD test datasets (orange).
  • 另外还保留了regression task来评估新任务上的泛化性,regression任务中的数据集在meta-training时并没有被使用

image-20230711170654082

两种训练范式:

  • Single-task meta-learning:在一个特定task family内进行训练和测试,评估meta-learning的效果
  • Multi-task meta-learning:在所有的task families上进行训练,评估meta-learning的效果

两种评估方式:

  • Within-distribution generalization (ID): How well do meta-learners generalize to novel test concepts within
    the seen datasets?
  • Out-distribution generalization (OOD): How well do meta-learners generalize to novel concepts in unseen datasets?

Datasets and Metrics

Classification

选择Meta-Album中的10个datasets,每个数据集包含19-706类,图片大小为$128 \times128$,每个类别有40张图像。其中3个数据集被保留用于out-of-distribution meta-validation,4个数据集用于out-of-distribution meta-test

Segmentation

  • 将FSS1000用于in-distribution,包含10000张图像,1000个类
  • FSS1000结合VizWiz用于OOD meta-validation,包含862张图像,22个类
  • modified Pascal5i(包含7242张图像,6个类)和医学图像数据集PH2(包含200张图像,3个类)用于meta-testing
  • 所有图像都被resize为$224\times 224$
  • 在进行few-shot learning时排除了与FSS1000数据集类别重叠的类,因此所有数据集之间没有重叠的类

Keypoints

  • animal-pose for in-distribution,包含5个动物类别,超过4k张图像中的6k个实例,每个动物都被从原图像中crop出来。cat和dog用于训练,horse和sheep用于in-domain validation,cow用于in-domain testing
  • synthetic animal-pose for OOD meta-validation,用从随机背景上的各种视点和照明渲染的动物CAD模型生成合成图像。在最终的数据集中只保留马和老虎类别。
  • MPII human-pose for OOD meta-testing,包括约40k人超过25k张带有人体关节点标注的图像
  • 所有图像都被resize到$128\times128$

Regression

  • ShapeNet1D,预测航向角,总共包含30个类别,我们从测试集中保留了3个类别

  • ShapeNet2D,具有航向角和俯仰角的2D旋转,ShapeNet2D的测试集总共包含300个类别,每个类别30张图像

  • Distractor,预测目标物体位置,它总共包含12个类别,测试集有2个类别,每个类别包含1000个对象,每个对象有36个图像

  • Pascal1D,预测航向角,整个Pascal1D包含来自10个类别的65个对象。测试集包含15个对象,每个对象具有100个图像

  • 所有图像都被resize到$128\times128$