ECCV2022 OpenSeg Posted on 2023-01-29 In paper ECCV2022 OpenSegScaling Open-Vocabulary Image Segmentation with Image-Level Labels CLIP、ALIGN利用image-level的字幕标签实现开放词汇分类,但无法像素级的分割视觉概念,作者认为这些模型忽略了视觉分组的一个重要步骤,即在学习视觉语义对齐之前将pixels组织成groups。