OpenVLA 与 Octo：选择哪种机器人学习模型？

研究人员和构建者选择视觉-语言-动作 (VLA) 模型的实际比较。

VLA 模型将感知 + 语言映射到行动

图片语言行动

两个都开放VLA 和奥克托是用于机器人学习的开源视觉-语言-动作模型。以下是它们的比较方式以及何时使用它们。

建筑学

开放VLA 基于 Prismatic VLM 构建并添加了动作预测头。它支持多种机器人形态和动作空间。 奥克托 使用基于 Open X-Embodiment 数据训练的基于 Transformer 的架构。两者都采用图像+语言并输出动作。

OpenVLA 在 Open X-Embodiment 和其他数据集上进行了训练。 Octo 接受过 Open X-Embodiment（RT-X、BridgeData、DROID 等）的培训。两者都受益于大规模、多样化的机器人数据。看看我们的数据集目录对于数据源。

两者都支持对您的机器人和任务进行微调。通常 50-500 次演示可以显着提高性能。 OpenVLA 为不同类型的机器人提供检查点。 Octo 的架构对于新的行动空间非常灵活。

无论您选择哪种模型，您都可能需要特定于任务的演示。我们提供数据收集服务用于模仿学习——远程操作、学习就绪格式和质量保证。当日在帕洛阿尔托领取硬件以实现快速迭代。