0%

Instance-Specific Image Goal Navigation: Training Embodied Agents to Find Object Instances

Instance-specific ImageNav task (InstanceImageNav)

Instance-Specific Image Goal Navigation: Training Embodied Agents to Find Object Instances

任务定义:agent被初始化在一个陌生环境,给定图像目标(ImageNav),agent需要导航到图像所描述的地点

ImageNav任务没有标准化的任务定义,这使得方法的评估和比较变得很困难,且存在2个缺陷:

  • 图像目标(image-goals)是从随机位置采样的,这可能导致图像所描述的含义是不明确的,引起歧义
  • 图像目标对应着特定的相机和agent,这使得下游应用受限

本文提出了实例特定的ImageNav任务来解决这些问题,具体来说,目标图像会聚焦于场景中特定的对象实例,并且使用独立于agent的相机参数拍摄。本文使用Habitat-Matterport 3D数据集(HM3D)中的场景在Habitat Simulator中实例化InstanceImageNav,并发布标准化benchmark

image-20230613174322542

Motivation

根据具体导航目标的不同,导航任务可以分为:

  • PointNav:相对坐标
  • ObjectNav:对象类别
  • Vision-and-Language Navigation(VLN):结构化的语言描述

这些导航任务都具有了标准化的benchmark,但ImageNav任务仍然缺乏标准化的任务定义,数据集和基准。以前的ImageNav作品通常使用不一致的任务定义,传感器规格,agent实例以及不同的(有时是非公开的)训练和评估数据集,这使得比较不同的方法变得困难。