EmbodiedGPT

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

基于具身思维链的视觉语言预训练

目前的大模型大多数通过以人类对话、视觉caption、视觉问答等任务的数据集进行训练，和机器人有较大的domain gap，输出的内容准确规划和可执行的动作的能力还有很大提升空间。本文提出：