0%

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

EmbodiedGPT

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

基于具身思维链的视觉语言预训练

参考

目前的大模型大多数通过以人类对话、视觉caption、视觉问答等任务的数据集进行训练,和机器人有较大的domain gap,输出的内容准确规划和可执行的动作的能力还有很大提升空间。本文提出:

  • EgoCOT: a large-scale embodied planning dataset
  • 高效的通过prefix tuning的方式对LLM在EgoCOT上进行训练
  • 用于从LLM生成的planning queries中提取与任务相关的特征,以形成高层规划和低层控制之间的闭环