0%

GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation

Posted on 2023-07-10 Edited on 2023-07-12 In paper

GeoVLN

GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation

Motivation

以往方法的缺陷：

仅依赖于RGB图像，RGB图像只能提供非常有限的2D视觉线索并且缺乏几何信息
独立地处理每个candidate view而不考虑局部空间上下文，导致不准确的决策
自然语言包含高级语义特征，并且指令内的不同短语可以集中于各个方面的视觉信息，例如：纹理，几何。使用原生的注意机制构建跨模态表征会导致次优性能