OpenVLA против Octo: какую модель обучения робота выбрать?
Практическое сравнение для исследователей и строителей, выбирающих модель «видение-язык-действие» (VLA).
Модели VLA отображают восприятие + язык в действиях
Оба OpenVLA и Окто представляют собой модели «видения, языка и действий» с открытым исходным кодом для обучения роботов. Вот как они сравниваются и когда использовать каждый.
Архитектура
OpenVLA основан на Prismatic VLM и добавляет головы прогнозирования действий. Он поддерживает несколько морфологий роботов и пространств действий. Окто использует архитектуру на основе трансформатора, обученную на данных Open X-Embodiment. Оба принимают изображения + язык и выводят действия.
Данные обучения
OpenVLA обучена на Open X-Embodiment и дополнительных наборах данных. Octo обучен на Open X-Embodiment (RT-X, BridgeData, DROID и т. д.). Оба извлекают выгоду из крупномасштабных и разнообразных данных о роботах. Посмотрите наш Каталог наборов данных для источников данных.
Тонкая настройка
Оба поддерживают тонкую настройку вашего робота и задачи. Обычно 50–500 демонстраций могут значительно улучшить производительность. OpenVLA предлагает контрольные точки для разных типов роботов. Архитектура Octo гибка для новых пространств действий.
Когда выбирать OpenVLA
- Вам нужна высокая производительность при выполнении распространенных задач манипуляции.
- Ваш робот аналогичен роботам из Open X-Embodiment (WidowX, ALOHA и т. д.).
- Вам нужна хорошо документированная, активно поддерживаемая модель.
Когда выбирать Окто
- Вы экспериментируете с новыми морфологиями роботов.
- Вам нужна максимальная гибкость для пользовательских пространств действий
- Вы основываетесь непосредственно на данных Open X-Embodiment.
Сбор данных для точной настройки
Какую бы модель вы ни выбрали, вам, скорее всего, понадобятся демонстрации для конкретных задач. Мы предлагаем услуги по сбору данных для имитации обучения — телеоперация, форматирование для обучения и контроль качества. Получение оборудования в тот же день в Пало-Альто для быстрой итерации.