Por que a Escolha do Formato Importa
O formato do conjunto de dados determina quais modelos você pode treinar, quão facilmente você pode compartilhar dados com colaboradores e quanto trabalho de engenharia você enfrenta em seu pipeline. Escolher o formato errado significa uma conversão dolorosa mais tarde — ou pior, perder metadados na tradução.
Comparação de Formatos
RLDS (Google): baseado em TFRecord, usado por Open X-Embodiment e RT-X. Excelente para treinamento em larga escala de cross-embodiment. LeRobot (Hugging Face): baseado em Parquet, fácil de enviar para o Hugging Face Hub, adoção crescente da comunidade. HDF5: formato binário auto-descritivo, usado por RoboMimic e muitos projetos mais antigos. Zarr: fragmentado, amigável para nuvens, ganhando tração para grandes conjuntos de dados.
- Para treinamento em cross-embodiment: RLDS
- Para compartilhamento comunitário e iteração rápida: LeRobot
- Para compatibilidade com legados: HDF5
- Para pipelines nativos da nuvem: Zarr
Pipeline de Dados do SVRC
A infraestrutura de coleta de dados do SVRC gera nativamente os formatos RLDS e LeRobot. Nossa Plataforma de Dados lida automaticamente com conversão de formato, versionamento e validação de qualidade.