0%

GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation

GeoVLN

GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation

image-20230712094534098

Motivation

以往方法的缺陷:

  • 仅依赖于RGB图像,RGB图像只能提供非常有限的2D视觉线索并且缺乏几何信息
  • 独立地处理每个candidate view而不考虑局部空间上下文,导致不准确的决策
  • 自然语言包含高级语义特征,并且指令内的不同短语可以集中于各个方面的视觉信息,例如:纹理,几何。使用原生的注意机制构建跨模态表征会导致次优性能