0%

Towards Open Vocabulary Learning: A Survey

Motivation&Background

Zero-Shot Learning(ZSL)缺少对不可见对象的示例,且在训练期间会将不可见类对象视作背景对象,因此,在推理过程中,模型仅基于其预定义的词嵌入来识别新类别,从而限制了对视觉信息和那些看不见的类别的关系的挖掘。

ZSL和open vocabulary之间的关键区别在于,open vocabulary可以使用视觉相关的语言词汇比如image captions来作为辅助的监督,使用语言来作为辅助的弱监督的motivations包括:

  • 相比于box和mask annotation,language data易于获取,标注成本低
  • language data提供了更大的词汇量,因此可以更容易地拓展,具有更强地泛化性

image-20230704104939297

  • Open-Set/Open World/OOD:只需要识别出unknown objects,而不需要将它们分到不同的具体类
  • Zero-Shot Learning:模型严格在base类上进行训练,novel类在训练时是不可见的,且模型需要为novel类预测具体类别
  • Open Vocabulary Learning
Read more »

MetaFormer

MetaFormer : A Unified Meta Framework for Fine-Grained Recognition

细粒度视觉分类(FGVC)是一种需要识别属于一个超类别的多个从属类别的对象的任务

Motivation

FGVC的主流方法主要关注如何使网络关注于最具判别性的区域,这类方法将受人类观察行为启发的定位的inductive bias引入到具有精细结构的神经网络。当一些物种在视觉上难以区分时,人类专家经常使用视觉之外的信息来帮助他们进行分类,所以仅使用视觉信息来完成细粒度分类是不合理的

最近的最先进的方法通常设计复杂的学习pipeline来解决这个任务。然而,仅凭视觉信息往往不足以准确区分细粒度的视觉类别。元信息(例如,时空先验、属性和文本描述)通常与图像沿着出现,MetaFormer旨在使用一个统一而简单的框架来利用各种元信息来辅助细粒度的识别。

Methodology

Hybrid Framework

image-20230703203848865

Read more »

A Survey on Multimodal Large Language Models

Multimodal Instruction Tuning (M-IT)

Instruction指任务的描述,Instruction tuning是一种在指令格式的数据集集合上对预先训练的LLM进行微调的技术

  • Pretrian-finetune需要许多特定于任务的数据来训练特定于任务的模型
  • Prompting能够提升few-shot性能,但zero-shot无提升
  • Instruction tuning学习如何推广到看不见的任务。此外,指令调整与multi-task prompting高度相关

将Instruction tuning从单模态扩展到多模态,需要对数据和模型结构进行调整:

  • 数据方面,对现有的数据集进行调整(如VisionLLM),或self-instruction(如MiniGPT-4)
  • 模型方面,通常将其他模态视作是外语注入到LLM中
    • 直接在表征空间将外语和LLM特征对齐
    • 使用专家模型将其他翻译成LLM可以理解的自然语言

image-20230703103400938

Read more »

Vision-Language Learning

ViLT

  • ViLT移除了多模态学习框架中预训练的目标检测器,换成了可以学习的Patch Embedding Layer,推理时间快
  • ViLT的训练时间长,复杂度大,视觉端不够强,效果不够好

CLIP

  • 使用Image-text contrastive loss训练,使图文对的特征尽量接近
  • 模态交互使用简单的点乘,高效

以往方法中发现比较好的一些经验:

  • 视觉文本双分支,且视觉需要更多的参数去学习
  • 模态融合很重要,用一个vit去做融合会比浅层的融合或者点乘更好
  • UNITER、ViLT中使用的Word Patch Alingment(WPA) loss计算起来非常慢
  • CLIP使用的ITC loss非常有效
  • MLM loss有效(Mask Language Modeling,也就是BERT的训练方式,遮住一个词再去预测这个词,做完形填空,在ALBEF中就是输入图像和被遮盖的句子,然后预测完整句子)
  • ITM loss有效(Image Text Matching loss,二分类问题,判断当前图像和文本是不是一个对,如果不做限制,会很快达到较高的准确率,因为负样本很多,因此通常需要做限制,比如ALBEF中选最接近正样本的负样本,利用在ITC loss中计算的相似度,选除自己之外最相似的负样本)
Read more »

Instance-specific ImageNav task (InstanceImageNav)

Instance-Specific Image Goal Navigation: Training Embodied Agents to Find Object Instances

任务定义:agent被初始化在一个陌生环境,给定图像目标(ImageNav),agent需要导航到图像所描述的地点

ImageNav任务没有标准化的任务定义,这使得方法的评估和比较变得很困难,且存在2个缺陷:

  • 图像目标(image-goals)是从随机位置采样的,这可能导致图像所描述的含义是不明确的,引起歧义
  • 图像目标对应着特定的相机和agent,这使得下游应用受限

本文提出了实例特定的ImageNav任务来解决这些问题,具体来说,目标图像会聚焦于场景中特定的对象实例,并且使用独立于agent的相机参数拍摄。本文使用Habitat-Matterport 3D数据集(HM3D)中的场景在Habitat Simulator中实例化InstanceImageNav,并发布标准化benchmark

image-20230613174322542

Read more »

VisionLLM

本文提出了基于LLM的的框架,用以解决以视觉为中心的任务

VisionLLM通过将图像视作语言并将以视觉为中心的任务与可以使用语言指令灵活定义和管理的语言任务对齐,为视觉-语言任务提供了统一的视角,基于LLM的解码器可以基于这些语言指令对开放式的任务进行预测

Motivation

Vision Foundation Models仍然受限于预训练范式,难以和LLMS的开放任务能力相匹配

由于模态和任务范式的固有差异,LLM并不能很好的拓展到纯视觉和视觉语言任务

预训练-微调的范式伴随着显著的边际成本

  • (a) Vision generalist models:多任务统一方法被用于实现通才能力,但它们往往难以克服预定义任务所带来的限制,导致在开放式能力方面与LLMs存在差距
  • (b) visual prompt tuning(VPT):视觉提示的格式与语言指令的格式非常不同,使得直接将LLM的推理能力和世界知识应用于视觉任务具有挑战性。

VisionLLM是一个统一的通才框架,将视觉为中心的任务定义与LLMs的方法对齐,利用LLM的推理能力和解析能力为视觉为中心的任务提供开放式任务功能,其包含3个核心组成部分:

  • 为视觉和视觉语言任务设计的统一语言指令
  • 语言引导的image tokenizer
  • 基于LLM的开放式任务解码器:使用语言指令实现各种任务

image-20230607163158902

Read more »

IdealGPT

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

使用LLM迭代分解VL reasoning

利用LLM将主问题划分为多个关注视觉细节的子问题,然后使用VLM回答更简单的子问题,并使用另一个LLM根据子答案进行推理获得最终答案。这三个部分反复执行,将问题分而治之,直到模型对主要问题的最终答案有信心。

  • 透明度+可解释性,推理过程可知
  • 模块化,可以替换LLM和VLM
  • 稳健性
  • 泛化性:可以用于多种任务,不需要对特定任务进行训练或微调

Motivation

大型预训练视觉-语言模型推动了VL understanding领域的发展,但以往的端到端方法仍然难以解决需要复杂或多步推理的zero-shot reasoning任务,比如视觉常识推理VCR。

以往分而治之方法的缺陷:

  • 依赖于特定领域的子问题分解模型,模型是不可推广到其他领域的
  • 迫使模型预测最终答案,即使子问题或子答案提供的信息不足。(真实情况中生成的子问题信息量可能是不足或者偏离主要问题的,由此获得的子答案可能也是充满噪声和误差的,因此,现有的方法可能会导致不合理的最终预测或被迫学习虚假的偏差来猜测最终答案。)

image-20230606111349666

Read more »

RECODE

Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models

通过从LLM中获得的复合视觉线索来进行zero-shot视觉关系检测

  • 首先利用LLM为关系类别的不同部分(如主体、对象和空间成分)生成基于描述的prompts或视觉线索。然后这些描述被用作CLIP模型的基于描述的提示,使其能够专注于特定的特征,不同的视觉线索从不同的角度增强了相似关系类别的可区分性,这显著提高了VRD的性能。

    对于主体和对象,prompts包括视觉线索,如外观(具有腿),尺寸(小),姿势(坐姿)。对于空间分量,prompt包括于对象之间空间关系线索,如相对位置和距离

  • 为进一步融合不同的线索,引入了chain-of-thought方法来提示LLMs为不同的视觉线索得到合理的权重。

Motivation

直接使用CLIP和基于类的prompts进行zero-shot VRD存在2个问题:

  • 难以区分不同的细粒度关系类别的问题(在CLIP的语义空间中相邻),如holding和carrying
  • 基于类别的prompts忽略了两个对象的基本空间信息,例如.“holding”类别通常暗示对象相对于人处于特定高度和取向,而“carrying”意味着不同的空间位置,通常对象位于较低位置并且可能由人的整个身体支撑。(可以理解为语义空间先验)
  • 计算效率低

image-20230606215941034

Read more »