什么是 VLA 模型?
视觉-语言-动作(VLA)模型以视觉观察和语言指令作为输入并直接输出机器人动作。 它们将对视觉语言模型 (VLM) 的视觉理解与根据机器人演示数据训练的电机控制能力相结合。 将它们视为机器人控制的基础模型。
主要 VLA 型号比较
RT-2(Google DeepMind):55B参数,泛化性强,未公开。 OpenVLA(斯坦福/伯克利):7B 参数,开源,可根据自定义数据进行微调。 Octo(伯克利):93M参数,快速推理,支持多种机器人实施例。 π₀(物理智能):基于扩散的VLA,操控性强灵巧。
- 对于计算有限的研究:Octo
- 用于微调自定义任务:OpenVLA
- 对于最高能力:π₀(如果有)
部署注意事项
VLA 模型需要 GPU 推理(通常是 RTX 3090 或更好)。 推理延迟范围从 50 毫秒 (Octo) 到 500 毫秒以上 (OpenVLA 7B)。 动作分块有助于弥合慢速推理和快速控制循环之间的差距。 对 50-200 个特定任务的演示进行微调通常会产生很好的结果。 SVRC 为 VLA 开发提供预配置工作站。