Warum die Wahl des Formats wichtig ist

Das Datensatzformat bestimmt, welche Modelle Sie trainieren können, wie einfach Sie Daten mit Mitarbeitern teilen können und wie viel Engineering-Aufwand in Ihrer Pipeline anfällt. Die Wahl des falschen Formats bedeutet später eine mühsame Konvertierung – oder schlimmer noch, den Verlust von Metadaten bei der Übersetzung.

Formatvergleich

RLDS (Google): TFRecord-basiert, verwendet von Open X-Embodiment und RT-X. Hervorragend geeignet für umfangreiches Cross-Embodiment-Training. LeRobot (Hugging Face): Parquet-basiert, einfach auf Hugging Face Hub zu übertragen, wachsende Community-Akzeptanz. HDF5: Selbstbeschreibendes Binärformat, das von RoboMimic und vielen älteren Projekten verwendet wird. Zarr: Chunked, Cloud-freundlich, gewinnt zunehmend an Bedeutung für große Datenmengen.

  • Für Cross-Embodiment-Training: RLDS
  • Für Community-Sharing und schnelle Iteration: LeRobot
  • Für Legacy-Kompatibilität: HDF5
  • Für Cloud-native Pipelines: Zarr

Datenpipeline von SVRC

Die Datenerfassungsinfrastruktur von SVRC gibt sowohl RLDS- als auch LeRobot-Formate nativ aus. Unsere Datenplattform übernimmt die Formatkonvertierung, Versionierung und Qualitätsvalidierung automatisch.