0%

ECCV2022 OpenSeg

ECCV2022 OpenSeg

Scaling Open-Vocabulary Image Segmentation with Image-Level Labels

CLIP、ALIGN利用image-level的字幕标签实现开放词汇分类,但无法像素级的分割视觉概念,作者认为这些模型忽略了视觉分组的一个重要步骤,即在学习视觉语义对齐之前将pixels组织成groups。