СтажерВЛА-М1

Пространственно управляемая система видения-языка-действия для общей политики в отношении роботов. Шанхайская лаборатория искусственного интеллекта.

Обзор

InternVLA-M1 использует двухэтапный конвейер: (1) предварительное обучение пространственному заземлению на 2,3 млн выборок для определения «где действовать», (2) пост-обучение пространственно-ориентированным действиям для определения «как действовать». Модульный, расширяемый, с двойным контролем.

Тесты

Google Робот 71,7% (WidowX), 76,0% (WM), 80,7% (WA)
LIBERO 95,9% успеха
+14,6% для SimplerEnv, +20,6% для невидимых объектов при синтетическом совместном обучении

Официальные ссылки

internrobotics.github.io/internvla-m1 — Сайт проекта
github.com/InternRobotics/InternVLA-M1 — Код (С)
Обнимающее лицо: InternRobotics — Модели и наборы данных

Цитирование

пгт. сайт проекта BibTeX и ссылки на статьи.