Почему выбор формата имеет значение
Формат набора данных определяет, какие модели вы можете обучать, насколько легко вы можете обмениваться данными с соавторами и с какими накладными расходами на разработку вы сталкиваетесь в своем конвейере. Выбор неправильного формата означает болезненное преобразование в дальнейшем или, что еще хуже, потерю метаданных при переводе.
Сравнение форматов
RLDS (Google): на основе TFRecord, используется Open X-Embodiment и RT-X. Отлично подходит для крупномасштабного обучения перекрестным воплощениям. LeRobot (Hugging Face): на базе паркета, его легко перенести в Hugging Face Hub, растет популярность среди сообщества. HDF5: двоичный формат с самоописанием, используемый RoboMimic и многими старыми проектами. Зарр: фрагментированный, удобный для облака, набирает обороты для больших наборов данных.
- Для перекрестной тренировки: RLDS.
- Для обмена информацией с сообществом и быстрой итерации: LeRobot
- Для совместимости с устаревшими версиями: HDF5.
- Для облачных конвейеров: Zarr.
Конвейер данных SVRC
Инфраструктура сбора данных SVRC изначально выводит форматы RLDS и LeRobot. Наша платформа данных автоматически выполняет преобразование формата, управление версиями и проверку качества.