Модели роботов VLA и VLM с открытым исходным кодом

Кураторский каталог моделей Vision-Language-Action (VLA) и Vision-Language (VLM) с открытым исходным кодом для манипулирования роботами — со ссылками на официальные сайты, GitHub и Hugging Face.

Руководства по модели с высоким намерением

На этих страницах пользователи ищут информацию по вопросам развертывания, рабочему процессу или коммерческому решению, а не по конкретному названию модели.

Популярные категории

Популярные теги

Категория
Ярлык

Модели VLA и VLM для робототехники

У каждой модели есть отдельная страница с описанием, архитектурой, тестами и официальными ссылками.

Предварительный просмотр моделей OpenVLA
КОРЛ 2025

OpenVLA

7Б-параметр ВЛА. Лама 2 + DINOv2/SigLIP. 970 тысяч демо-версий от Open X-Embodiment. Превосходит RT-2-X с в 7 раз меньшим количеством параметров. Массачусетский технологический институт, «Обнимающее лицо».

Посмотреть модель →
Визуализация модели Octo
2024

Окто

Политика распространения трансформаторов. Параметры 27M/93M. 800 тысяч траекторий. Мультиробот, кондиционирование языка/цели. Массачусетский технологический институт, «Обнимающее лицо».

Посмотреть модель →
Предварительный просмотр модели RT-X
Гугл ДипМайнд

РТ-Х / РТ-1-Х

Откройте модели X-Embodiment. Контрольные точки JAX и TensorFlow. Мультиробот с языковым управлением. Апач 2.0.

Посмотреть модель →
Визуализация модели InternVLA
Шанхайская лаборатория искусственного интеллекта

СтажерВЛА-М1

Пространственно управляемая ВЛА. Двухступенчатый: заземление + действие. 71–81% на Google Robot, 95,9% LIBERO. Массачусетский технологический институт, «Обнимающее лицо».

Посмотреть модель →
Визуализация модели РобоФламинго
ByteDance / Синьхуа

РобоФламинго

VLM на базе OpenFlamingo для управления роботами. Политика руководителя + имитационное обучение. Сильный по отношению к CALVIN. Массачусетский технологический институт, «Обнимающее лицо».

Посмотреть модель →
Визуализация модели BridgeVLA
НейрИПС 2025

МостВЛА

3D VLA с выравниванием ввода-вывода. 88,2% RLBench, 64% COLOSSEUM. Предварительная тренировка тепловой карты + точная настройка облака точек.

Посмотреть модель →
Визуализация модели политики распространения
Колумбия

Политика распространения

Зрительно-моторная политика как шумоподавительная диффузия. +46,9% по сравнению с предыдущими методами. Уходящий горизонт, преобразователь временных рядов. Открытый исходный код.

Посмотреть модель →
Визуализация структуры LeRobot
Обнимающее лицо

ЛеРобот

Каркас + АКТ, СмолВЛА (450М). Сквозной ИЛ/РЛ. Наборы данных, обучение, развертывание. PyTorch, Hugging Face Hub.

Посмотреть модель →

Наборы данных и инструменты для сопряжения

Практический выбор модели

Сравнивайте архитектуры по степени соответствия задачам, потребностям в данных и сложности развертывания.

Выравнивание модели данных

Выбор моделей связан с совместимыми стеками наборов данных и форматов.

Скорость эксперимента

Ссылки с открытым исходным кодом и готовые к реализации указатели уменьшают сложность настройки.

Масштабирование до производства

От оценки до развертывания с поддержкой настройки и интеграции.

Нужны специальные модели или данные?

Мы обеспечиваем сбор данных, поддержку тонкой настройки и развертывание для обучения роботов.