Por que a Escolha do Formato Importa

O formato do conjunto de dados determina quais modelos você pode treinar, quão facilmente você pode compartilhar dados com colaboradores e quanto trabalho de engenharia você enfrenta em seu pipeline. Escolher o formato errado significa uma conversão dolorosa mais tarde — ou pior, perder metadados na tradução.

Comparação de Formatos

RLDS (Google): baseado em TFRecord, usado por Open X-Embodiment e RT-X. Excelente para treinamento em larga escala de cross-embodiment. LeRobot (Hugging Face): baseado em Parquet, fácil de enviar para o Hugging Face Hub, adoção crescente da comunidade. HDF5: formato binário auto-descritivo, usado por RoboMimic e muitos projetos mais antigos. Zarr: fragmentado, amigável para nuvens, ganhando tração para grandes conjuntos de dados.

  • Para treinamento em cross-embodiment: RLDS
  • Para compartilhamento comunitário e iteração rápida: LeRobot
  • Para compatibilidade com legados: HDF5
  • Para pipelines nativos da nuvem: Zarr

Pipeline de Dados do SVRC

A infraestrutura de coleta de dados do SVRC gera nativamente os formatos RLDS e LeRobot. Nossa Plataforma de Dados lida automaticamente com conversão de formato, versionamento e validação de qualidade.