视觉-语言-动作模型解释:VLA 如何为现代机器人提供动力
视觉-语言-动作模型相当于 GPT-4 的机器人——大规模的、预先训练的神经网络,可以进行微调以执行各种物理任务。 了解 VLA 是什么、它们如何工作以及何时使用它们现在是任何认真的机器人从业者的基本知识。
什么是视觉-语言-行动模型?
视觉语言动作模型 (VLA) 是一种神经网络,它将视觉观察(相机图像)和自然语言指令作为输入,并输出机器人动作——关节速度、末端执行器姿势或夹具命令。 “视觉语言”部分指的是预训练的主干:这些模型继承了对图像文本对的大规模互联网预训练的视觉和语义理解,就像 CLIP 或视觉语言模型 (VLM) 一样。 “动作”部分是根据机器人演示数据进行训练的微调头。
核心见解是,对互联网数据的预训练让机器人主干在看到机器人演示之前就可以丰富地表征物理世界——物体是什么、它们在空间上如何关联以及语言意味着什么。 然后微调使这种表示适应机器人的体现和目标任务。 因为主干已经理解“拿起蓝色杯子”或“打开左边的抽屉”,所以该模型可以推广到新颖的对象和任务短语,而演示次数比从头开始训练的策略要少得多。
RT-2:第一个大型 VLA
RT-2(机器人变压器 2)由 Google DeepMind 于 2023 年发布,是首次演示将视觉语言模型扩展到机器人控制可以产生全新的能力。 RT-2 同时在网络数据和机器人轨迹上共同微调 PaLI-X 视觉语言模型,生成一种策略,可以遵循新颖的指令,推理对象属性,并推广到它在机器人演示中从未见过的对象(仅在互联网上)。
RT-2 表明 VLA 可以进行思维链推理:被要求拿起“可以用来清理溢出物的东西”,模型从场景中识别出一块海绵,而没有被明确告知将海绵与清洁联系起来。 这种新兴的能力——超越训练分布的语义泛化——使得 VLA 与经典的模仿学习策略有本质上的不同。 权衡是计算:RT-2 在具有 550 亿个参数的模型上运行,需要部署大量基础设施。
OpenVLA:开源 VLA 微调
OpenVLA 由斯坦福大学和伯克利分校的研究人员于 2024 年发布,通过在开源 Prismatic VLM(本身基于 LLaMA)的基础上构建并在 Open X-Embodiment 数据集(来自 22 个不同实施例的 97 万集机器人演示集合)上进行训练,实现了 VLA 微调的民主化。 OpenVLA 是当今大多数研究团队使用的起点,因为它完全开源、文档齐全,并且在标准操作基准上实现了强大的性能。
在自定义任务上微调 OpenVLA 只需要 50-200 个演示、使用 HuggingFace LeRobot 约定格式化的数据集以及单个 80GB A100 或 H100 GPU 即可进行几个小时的训练。 令人惊讶的是,最终的策略能够推广到训练中未见过的场景变化和新颖的物体位置,这得益于预先训练的视觉主干。 SVRC的 数据采集服务 生成 LeRobot 兼容格式的数据集,为 OpenVLA 开箱即用的微调做好准备。
pi0:物理智能的通才政策
pi0,来自Physical Intelligence (pi.ai),代表了VLA开发的商业前沿。 与继承语言模型主干的 OpenVLA 不同,pi0 使用流匹配动作头来产生连续、平滑的动作轨迹——比离散的标记化动作更适合灵巧的任务。 pi0 在专有数据集上进行了训练,该数据集涵盖了数十个任务和硬件平台上超过 10,000 小时的机器人演示。
pi0 在架构上的区别在于“慢速”语言条件推理路径和“快速”反应性运动控制路径之间的分离。 这反映了认知科学关于双过程控制系统的见解。 慢速路径处理任务指令和当前场景以产生高级计划; 快速通路产生低延迟的运动命令。 其结果是一种能够同时处理长期推理和高频反应控制的策略——为折叠衣物等同时需要这两种任务的任务打开了大门。
可通过Physical Intelligence 的企业计划访问pi0 进行商业部署。 对于探索 pi0 风格架构的团队来说,SVRC 基准 包括对标准操作套件的流量匹配策略的评估,为您在进行训练之前提供预期性能的参考点。
VLA 与经典模仿学习策略有何不同
经典的 IL 策略——ACT、扩散策略、BC-Z——完全从机器人演示数据中学习。 它们的视觉表示是从头开始学习的,或者是从狭窄的预训练编码器(如 R3M 或 MVP)中学习的。 他们在训练分布中概括得很好,但难以应对新物体、灯光变化或重新表述目标的任务指令。 他们还需要更多的演示才能达到给定的性能水平,因为他们缺乏预训练提供的语义先验。
VLA 以计算换取泛化。 GPU 上的经典 ACT 策略每次推理成本仅为几美分; 7B 参数模型上的 VLA 推理步骤的成本要高出几个数量级。 对于需要跨环境和指令广泛推广的任务,VLA 胜出。 对于具有 1,000 多个演示并且可以调整环境的狭义重复性工业任务,经典策略通常可以以更低的成本实现更好的速度和可靠性。 实用的决策框架:如果您的任务需要泛化,请从 VLA 主干开始。 如果是狭窄且高吞吐量的,则优化经典策略。
使用 SVRC 数据微调 VLA
SVRC 为 VLA 微调项目提供端到端支持。 我们的 远程操作基础设施 以 RLDS/LeRobot 格式捕获演示,其中包含同步多摄像头视频、本体感受状态和 50Hz 的动作标签。 我们的数据集管道包括剧集质量过滤(消除失败的尝试和犹豫)、相机校准元数据和任务指令注释。
对于需要大规模自定义数据的团队,我们在帕洛阿尔托工厂的托管收集服务每天可以通过训练有素的操作员在操作任务库中进行数百次演示。 我们还提供有关任务设计的咨询——定义数据集的范围、变化轴和成功标准,以实际训练可推广的策略。 联系我们的团队 讨论您的 VLA 微调项目,或通过以下方式探索我们现有的数据集目录 SVRC平台.