Por qué importa la elección del formato

El formato del conjunto de datos determina qué modelos puedes entrenar, cuán fácilmente puedes compartir datos con colaboradores y cuánta carga de ingeniería enfrentas en tu pipeline. Elegir el formato incorrecto significa una conversión dolorosa más tarde — o peor, perder metadatos en la traducción.

Comparación de formatos

RLDS (Google): basado en TFRecord, utilizado por Open X-Embodiment y RT-X. Excelente para entrenamiento a gran escala de cross-embodiment. LeRobot (Hugging Face): basado en Parquet, fácil de subir a Hugging Face Hub, adopción creciente de la comunidad. HDF5: formato binario autodescriptivo, utilizado por RoboMimic y muchos proyectos más antiguos. Zarr: fragmentado, amigable con la nube, ganando tracción para grandes conjuntos de datos.

  • Para entrenamiento de cross-embodiment: RLDS
  • Para compartir en la comunidad y rápida iteración: LeRobot
  • Para compatibilidad con versiones anteriores: HDF5
  • Para tuberías nativas de la nube: Zarr

La tubería de datos de SVRC

La infraestructura de recolección de datos de SVRC produce tanto formatos RLDS como LeRobot de manera nativa. Nuestra plataforma de datos maneja la conversión de formatos, el versionado y la validación de calidad automáticamente.