为什么格式选择很重要

数据集格式决定了您可以训练哪些模型、与协作者共享数据的难易程度以及您在管道中面临的工程开销。 选择错误的格式意味着以后的转换会很痛苦,或者更糟糕的是,在翻译过程中会丢失元数据。

格式比较

RLDS (Google):基于 TFRecord,由 Open X-Embodiment 和 RT-X 使用。 非常适合大规模跨实体训练。 LeRobot (Hugging Face):基于 Parquet,易于推送到 Hugging Face Hub,提高社区采用率。 HDF5:自描述二进制格式,由 RoboMimic 和许多旧项目使用。 Zarr:分块、云友好、获得大型数据集的青睐。

  • 对于跨实体训练:RLDS
  • 社区分享和快速迭代:乐机器人
  • 对于传统兼容性:HDF5
  • 对于云原生管道:Zarr

SVRC 的数据管道

SVRC 的数据收集基础设施原生输出 RLDS 和 LeRobot 格式。 我们的数据平台自动处理格式转换、版本控制和质量验证。