ECCV2022 OpenSeg

Posted on 2023-01-29 In paper

Scaling Open-Vocabulary Image Segmentation with Image-Level Labels

CLIP、ALIGN利用image-level的字幕标签实现开放词汇分类，但无法像素级的分割视觉概念，作者认为这些模型忽略了视觉分组的一个重要步骤，即在学习视觉语义对齐之前将pixels组织成groups。