CALVIN

从语言和视觉构成行动——长期的、以语言为条件的操纵。

概述

卡尔文从长远角度评估语言条件操纵。智能体必须根据自然语言指令组合多种技能。基于模拟。 RoboFlamingo 和其他基于 VLM 的策略表现强劲。