开放 X 实施例:它是什么以及为什么它对机器人学习很重要
Open X-Embodiment (OXE) 是现有最大的开放协作机器人学习数据集。 它由 30 多个研究机构组成的联盟发布,代表了为通用机器人政策构建基础数据集的首次认真尝试——相当于 ImageNet 或 The Pile 的机器人技术。
什么是开放 X 实施例?
Open X-Embodiment 是一个统一的机器人操作演示数据集,收集了超过 22 个不同的机器人实施例(涵盖 Franka、WidowX、UR5、Kuka 等)以及全球数十个研究实验室。 该数据集总计超过一百万集,涵盖数百种不同的操作任务:拾取、放置、打开抽屉、倒液体、擦拭表面等等。
名称中的“X”代表跨实体:OXE 的明确目标是训练在机器人身体之间传递知识的策略。 在完整 OXE 数据集上预训练的策略已经看到了来自各种手臂几何形状、夹具类型、相机配置和任务领域的操纵行为,这赋予了它丰富的先验知识,可以对新机器人进行微调,而与从头开始训练相比,演示要少得多。
参与机构及数据集构成
做出贡献的机构包括斯坦福大学、加州大学伯克利分校、谷歌 DeepMind、卡内基梅隆大学、麻省理工学院、苏黎世联邦理工学院等。 每个实验室都以标准化格式贡献其现有的演示数据集。 该数据集托管在 Google Cloud Storage 上,可免费供研究使用。 子数据集的大小差异很大:一些实验室贡献了数万个片段,其他实验室贡献了数百个片段。 任务分配偏向于桌面拾取和放置,反映了最常见的实验设置,但对象、照明条件和手臂配置的多样性确实很广泛。
Robotics Transformer 2 (RT-2) 和 Google 的后续模型在 OXE 数据上进行训练,并证明跨实施例预训练产生的策略比单机器人训练具有更好的零样本泛化能力。 这一结果验证了核心 OXE 假设,并加速了跨领域数据集的采用。
数据集格式和 RLDS
OXE 使用 RLDS(机器人学习数据集规范)格式,这是一种基于 TensorFlow 数据集的架构,用于存储机器人轨迹。 RLDS 中的每个情节都是一系列步骤,其中每个步骤包含观察字典(图像、关节状态、夹具状态)、动作向量、奖励信号和描述任务的语言注释。 该模式足够灵活以适应跨实施例的不同观察模式和动作空间。
使用 RLDS 需要 TensorFlow 或 rlds_creator 库。 Hugging Face 的 LeRobot 提供了转换实用程序,可将 OXE 数据转换为其自己的格式,使喜欢 PyTorch 的研究人员可以使用它。 SVRC的 数据平台 以与 RLDS 和 LeRobot 兼容的格式导出数据集,从而可以直接为未来的 OXE 版本做出贡献。
如何为 OXE 做出贡献
将您的数据集贡献给 OXE 需要在 RLDS 中格式化您的演示,添加每步语言注释,并向 OXE GitHub 存储库提交带有数据集文档的拉取请求。 提交过程包括对数据质量和格式合规性的审查。 如果您的演示是通过 SVRC 数据服务收集的,该平台可以使用标准化元数据生成与 RLDS 兼容的导出,从而显着简化贡献流程。 联系 SVRC团队 有关为 OXE 提交准备数据的指导。
使用OXE进行预训练
OXE 最有实际价值的用途是作为预训练数据集。 下载与您的任务域和机器人相关的 OXE 子集,训练一般策略主干,然后对您自己的特定任务演示进行微调。 与从头开始的训练相比,这种方法始终需要更少的特定任务演示——通常少 5-10 倍——同时实现更高的最终性能。
当您的微调数据有限(低于 100 个episode)时,当您的任务在概念上与 OXE 中的任务相似时,以及当您使用专为跨实体传输而设计的架构(例如 Octo、OpenVLA 或 RT-2-X)时,OXE 上的预训练是最有益的。 当您在部署条件下收集了丰富的高质量演示时,从头开始的纯粹针对特定任务的微调仍然具有竞争力。
SVRC 兼容性以及我们如何提供帮助
SVRC 的数据收集标准从一开始就被设计为与 OXE 兼容:标准化的相机放置、一致的注释模式、质量控制的成功标签以及 RLDS 就绪的导出。 通过 SVRC 收集的数据 数据服务 可以直接用于 OXE 微调或为未来的数据集发布做出贡献。 对于想要在其特定硬件上利用 OXE 预训练模型的团队,SVRC 提供工程支持来设置微调管道并评估部署就绪策略。