← 研究

OpenVLA 与 Octo:选择哪种机器人学习模型?

研究人员和构建者选择视觉-语言-动作 (VLA) 模型的实际比较。

VLA 模型将感知 + 语言映射到行动

图片 语言 行动

两个都 开放VLA奥克托 是用于机器人学习的开源视觉-语言-动作模型。 以下是它们的比较方式以及何时使用它们。

建筑学

开放VLA 基于 Prismatic VLM 构建并添加了动作预测头。 它支持多种机器人形态和动作空间。 奥克托 使用基于 Open X-Embodiment 数据训练的基于 Transformer 的架构。 两者都采用图像+语言并输出动作。

训练数据

OpenVLA 在 Open X-Embodiment 和其他数据集上进行了训练。 Octo 接受过 Open X-Embodiment(RT-X、BridgeData、DROID 等)的培训。 两者都受益于大规模、多样化的机器人数据。 看看我们的 数据集目录 对于数据源。

微调

两者都支持对您的机器人和任务进行微调。 通常 50-500 次演示可以显着提高性能。 OpenVLA 为不同类型的机器人提供检查点。 Octo 的架构对于新的行动空间非常灵活。

何时选择 OpenVLA

  • 您需要在常见操作任务上具有强大的开箱即用性能
  • 您的机器人与 Open X-Embodiment 中的机器人类似(WidowX、ALOHA 等)
  • 您需要一个记录良好、维护积极的模型

何时选择奥克托

  • 您正在尝试新颖的机器人形态
  • 您希望自定义操作空间具有最大的灵活性
  • 您直接基于 Open X-Embodiment 数据进行构建

用于微调的数据收集

无论您选择哪种模型,您都可能需要特定于任务的演示。 我们提供 数据收集服务 用于模仿学习——远程操作、学习就绪格式和质量保证。 当日在帕洛阿尔托领取硬件以实现快速迭代。

查看所有 VLA 型号 →