Модели роботов VLA и VLM с открытым исходным кодом
Кураторский каталог моделей Vision-Language-Action (VLA) и Vision-Language (VLM) с открытым исходным кодом для манипулирования роботами — со ссылками на официальные сайты, GitHub и Hugging Face.
Базовые модели VLA
Крупномасштабные модели действий, обученные с использованием данных нескольких роботов и многозадачных задач.
КоллекцияТрек сравнения моделей
Модели, обычно используемые для параллельной оценки в стиле бенчмарка.
КоллекцияМодели обучения политике
Архитектуры, оптимизированные для практических циклов обучения политике IL/RL.
Руководства по модели с высоким намерением
Модели VLA для робототехники
Базовые модели действий, компромиссы и соответствие.
Руководство по рабочему процессуМодели начальной загрузки Teleop
Что работает лучше всего, когда вашей отправной точкой являются демонстрации.
Руководство по манипуляциямМодели с большим количеством контактов
Сила, тактильные сигналы и выбор политики восстановления.
Руководство по принятию решенийПолитика фундамента против задачи
Широкие возможности по сравнению с более быстрым узким развертыванием.
Руководство по принятию решенийКак выбрать модель робота
Данные, объем задач, оценка и ограничения развертывания.
Руководство по OpenArmМодели OpenArm
Выбор политики и практические стартовые пути для OpenArm.
Популярные категории
Популярные теги
Модели VLA и VLM для робототехники

OpenVLA
7Б-параметр ВЛА. Лама 2 + DINOv2/SigLIP. 970 тысяч демо-версий от Open X-Embodiment. Превосходит RT-2-X с в 7 раз меньшим количеством параметров. Массачусетский технологический институт, «Обнимающее лицо».
Посмотреть модель →
Окто
Политика распространения трансформаторов. Параметры 27M/93M. 800 тысяч траекторий. Мультиробот, кондиционирование языка/цели. Массачусетский технологический институт, «Обнимающее лицо».
Посмотреть модель →
РТ-Х / РТ-1-Х
Откройте модели X-Embodiment. Контрольные точки JAX и TensorFlow. Мультиробот с языковым управлением. Апач 2.0.
Посмотреть модель →
СтажерВЛА-М1
Пространственно управляемая ВЛА. Двухступенчатый: заземление + действие. 71–81% на Google Robot, 95,9% LIBERO. Массачусетский технологический институт, «Обнимающее лицо».
Посмотреть модель →
РобоФламинго
VLM на базе OpenFlamingo для управления роботами. Политика руководителя + имитационное обучение. Сильный по отношению к CALVIN. Массачусетский технологический институт, «Обнимающее лицо».
Посмотреть модель →
МостВЛА
3D VLA с выравниванием ввода-вывода. 88,2% RLBench, 64% COLOSSEUM. Предварительная тренировка тепловой карты + точная настройка облака точек.
Посмотреть модель →
Политика распространения
Зрительно-моторная политика как шумоподавительная диффузия. +46,9% по сравнению с предыдущими методами. Уходящий горизонт, преобразователь временных рядов. Открытый исходный код.
Посмотреть модель →
ЛеРобот
Каркас + АКТ, СмолВЛА (450М). Сквозной ИЛ/РЛ. Наборы данных, обучение, развертывание. PyTorch, Hugging Face Hub.
Посмотреть модель →Наборы данных и инструменты для сопряжения
Практический выбор модели
Сравнивайте архитектуры по степени соответствия задачам, потребностям в данных и сложности развертывания.
Выравнивание модели данных
Выбор моделей связан с совместимыми стеками наборов данных и форматов.
Скорость эксперимента
Ссылки с открытым исходным кодом и готовые к реализации указатели уменьшают сложность настройки.
Масштабирование до производства
От оценки до развертывания с поддержкой настройки и интеграции.