Почему выбор формата имеет значение

Формат набора данных определяет, какие модели вы можете обучать, насколько легко вы можете обмениваться данными с соавторами и с какими накладными расходами на разработку вы сталкиваетесь в своем конвейере. Выбор неправильного формата означает болезненное преобразование в дальнейшем или, что еще хуже, потерю метаданных при переводе.

Сравнение форматов

RLDS (Google): на основе TFRecord, используется Open X-Embodiment и RT-X. Отлично подходит для крупномасштабного обучения перекрестным воплощениям. LeRobot (Hugging Face): на базе паркета, его легко перенести в Hugging Face Hub, растет популярность среди сообщества. HDF5: двоичный формат с самоописанием, используемый RoboMimic и многими старыми проектами. Зарр: фрагментированный, удобный для облака, набирает обороты для больших наборов данных.

  • Для перекрестной тренировки: RLDS.
  • Для обмена информацией с сообществом и быстрой итерации: LeRobot
  • Для совместимости с устаревшими версиями: HDF5.
  • Для облачных конвейеров: Zarr.

Конвейер данных SVRC

Инфраструктура сбора данных SVRC изначально выводит форматы RLDS и LeRobot. Наша платформа данных автоматически выполняет преобразование формата, управление версиями и проверку качества.