Warum die Wahl des Formats wichtig ist
Das Datensatzformat bestimmt, welche Modelle Sie trainieren können, wie einfach Sie Daten mit Mitarbeitern teilen können und wie viel Engineering-Aufwand in Ihrer Pipeline anfällt. Die Wahl des falschen Formats bedeutet später eine mühsame Konvertierung – oder schlimmer noch, den Verlust von Metadaten bei der Übersetzung.
Formatvergleich
RLDS (Google): TFRecord-basiert, verwendet von Open X-Embodiment und RT-X. Hervorragend geeignet für umfangreiches Cross-Embodiment-Training. LeRobot (Hugging Face): Parquet-basiert, einfach auf Hugging Face Hub zu übertragen, wachsende Community-Akzeptanz. HDF5: Selbstbeschreibendes Binärformat, das von RoboMimic und vielen älteren Projekten verwendet wird. Zarr: Chunked, Cloud-freundlich, gewinnt zunehmend an Bedeutung für große Datenmengen.
- Für Cross-Embodiment-Training: RLDS
- Für Community-Sharing und schnelle Iteration: LeRobot
- Für Legacy-Kompatibilität: HDF5
- Für Cloud-native Pipelines: Zarr
Datenpipeline von SVRC
Die Datenerfassungsinfrastruktur von SVRC gibt sowohl RLDS- als auch LeRobot-Formate nativ aus. Unsere Datenplattform übernimmt die Formatkonvertierung, Versionierung und Qualitätsvalidierung automatisch.