GeoVLN
GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation
Motivation
以往方法的缺陷:
- 仅依赖于RGB图像,RGB图像只能提供非常有限的2D视觉线索并且缺乏几何信息
- 独立地处理每个candidate view而不考虑局部空间上下文,导致不准确的决策
- 自然语言包含高级语义特征,并且指令内的不同短语可以集中于各个方面的视觉信息,例如:纹理,几何。使用原生的注意机制构建跨模态表征会导致次优性能