OpenVLA 与 Octo:选择哪种机器人学习模型?
研究人员和构建者选择视觉-语言-动作 (VLA) 模型的实际比较。
VLA 模型将感知 + 语言映射到行动
图片
语言
行动
两个都 开放VLA 和 奥克托 是用于机器人学习的开源视觉-语言-动作模型。 以下是它们的比较方式以及何时使用它们。
建筑学
开放VLA 基于 Prismatic VLM 构建并添加了动作预测头。 它支持多种机器人形态和动作空间。 奥克托 使用基于 Open X-Embodiment 数据训练的基于 Transformer 的架构。 两者都采用图像+语言并输出动作。
训练数据
OpenVLA 在 Open X-Embodiment 和其他数据集上进行了训练。 Octo 接受过 Open X-Embodiment(RT-X、BridgeData、DROID 等)的培训。 两者都受益于大规模、多样化的机器人数据。 看看我们的 数据集目录 对于数据源。
微调
两者都支持对您的机器人和任务进行微调。 通常 50-500 次演示可以显着提高性能。 OpenVLA 为不同类型的机器人提供检查点。 Octo 的架构对于新的行动空间非常灵活。
何时选择 OpenVLA
- 您需要在常见操作任务上具有强大的开箱即用性能
- 您的机器人与 Open X-Embodiment 中的机器人类似(WidowX、ALOHA 等)
- 您需要一个记录良好、维护积极的模型
何时选择奥克托
- 您正在尝试新颖的机器人形态
- 您希望自定义操作空间具有最大的灵活性
- 您直接基于 Open X-Embodiment 数据进行构建
用于微调的数据收集
无论您选择哪种模型,您都可能需要特定于任务的演示。 我们提供 数据收集服务 用于模仿学习——远程操作、学习就绪格式和质量保证。 当日在帕洛阿尔托领取硬件以实现快速迭代。