EmbodiedGPT
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought
基于具身思维链的视觉语言预训练
目前的大模型大多数通过以人类对话、视觉caption、视觉问答等任务的数据集进行训练,和机器人有较大的domain gap,输出的内容准确规划和可执行的动作的能力还有很大提升空间。本文提出:
- EgoCOT: a large-scale embodied planning dataset
- 高效的通过prefix tuning的方式对LLM在EgoCOT上进行训练
- 用于从LLM生成的planning queries中提取与任务相关的特征,以形成高层规划和低层控制之间的闭环