フォーマットの選択が重要な理由

データセットの形式によって、どのモデルをトレーニングできるか、共同作業者とのデータ共有の容易さ、パイプラインで直面するエンジニアリングのオーバーヘッドの量が決まります。 間違った形式を選択すると、後で変換に手間がかかることになります。さらに悪いことに、翻訳中にメタデータが失われることになります。

フォーマットの比較

RLDS (Google): TFRecord ベース。Open X-Embodiment および RT-X で使用されます。 大規模な体を越えたトレーニングに最適です。 LeRobot (Hugging Face): 寄木細工ベースで、Hugging Face Hub に簡単にプッシュでき、コミュニティでの採用が増加しています。 HDF5: RoboMimic および多くの古いプロジェクトで使用される自己記述型バイナリ形式。 Zarr: チャンク化されており、クラウドに適しており、大規模なデータセットで注目を集めています。

  • クロスボディトレーニングの場合: RLDS
  • コミュニティの共有と迅速な反復用: LeRobot
  • 従来の互換性の場合: HDF5
  • クラウドネイティブ パイプラインの場合: Zarr

SVRC のデータ パイプライン

SVRC のデータ収集インフラストラクチャは、RLDS 形式と LeRobot 形式の両方をネイティブに出力します。 当社のデータ プラットフォームは、形式変換、バージョン管理、品質検証を自動的に処理します。