Instance-speciﬁc ImageNav task (InstanceImageNav)

Instance-Speciﬁc Image Goal Navigation: Training Embodied Agents to Find Object Instances

任务定义：agent被初始化在一个陌生环境，给定图像目标（ImageNav），agent需要导航到图像所描述的地点

ImageNav任务没有标准化的任务定义，这使得方法的评估和比较变得很困难，且存在2个缺陷：

图像目标(image-goals)是从随机位置采样的，这可能导致图像所描述的含义是不明确的，引起歧义
图像目标对应着特定的相机和agent，这使得下游应用受限

本文提出了实例特定的ImageNav任务来解决这些问题，具体来说，目标图像会聚焦于场景中特定的对象实例，并且使用独立于agent的相机参数拍摄。本文使用Habitat-Matterport 3D数据集（HM3D）中的场景在Habitat Simulator中实例化InstanceImageNav，并发布标准化benchmark

Motivation

根据具体导航目标的不同，导航任务可以分为：

PointNav：相对坐标
ObjectNav：对象类别
Vision-and-Language Navigation（VLN）：结构化的语言描述

这些导航任务都具有了标准化的benchmark，但ImageNav任务仍然缺乏标准化的任务定义，数据集和基准。以前的ImageNav作品通常使用不一致的任务定义，传感器规格，agent实例以及不同的（有时是非公开的）训练和评估数据集，这使得比较不同的方法变得困难。