Pourquoi le choix du format est important

Le format de l'ensemble de données détermine les modèles que vous pouvez entraîner, la facilité avec laquelle vous pouvez partager des données avec des collaborateurs et la charge d'ingénierie à laquelle vous êtes confronté dans votre pipeline. Choisir le mauvais format signifie une conversion ultérieure douloureuse – ou pire, une perte de métadonnées lors de la traduction.

Comparaison des formats

RLDS (Google) : basé sur TFRecord, utilisé par Open X-Embodiment et RT-X. Excellent pour la formation inter-incarnations à grande échelle. LeRobot (Hugging Face) : basé sur Parquet, facile à pousser vers Hugging Face Hub, adoption croissante par la communauté. HDF5 : format binaire auto-descriptif, utilisé par RoboMimic et de nombreux projets plus anciens. Zarr : fragmenté, compatible avec le cloud, gagnant du terrain pour les grands ensembles de données.

  • Pour la formation inter-incarnations : RLDS
  • Pour le partage communautaire et l'itération rapide : LeRobot
  • Pour une compatibilité existante : HDF5
  • Pour les pipelines cloud natifs : Zarr

Pipeline de données du SVRC

L'infrastructure de collecte de données de SVRC génère nativement les formats RLDS et LeRobot. Notre plateforme de données gère automatiquement la conversion de format, la gestion des versions et la validation de la qualité.