为什么格式选择很重要
数据集格式决定了您可以训练哪些模型、与协作者共享数据的难易程度以及您在管道中面临的工程开销。 选择错误的格式意味着以后的转换会很痛苦,或者更糟糕的是,在翻译过程中会丢失元数据。
格式比较
RLDS (Google):基于 TFRecord,由 Open X-Embodiment 和 RT-X 使用。 非常适合大规模跨实体训练。 LeRobot (Hugging Face):基于 Parquet,易于推送到 Hugging Face Hub,提高社区采用率。 HDF5:自描述二进制格式,由 RoboMimic 和许多旧项目使用。 Zarr:分块、云友好、获得大型数据集的青睐。
- 对于跨实体训练:RLDS
- 社区分享和快速迭代:乐机器人
- 对于传统兼容性:HDF5
- 对于云原生管道:Zarr
SVRC 的数据管道
SVRC 的数据收集基础设施原生输出 RLDS 和 LeRobot 格式。 我们的数据平台自动处理格式转换、版本控制和质量验证。