← Модели

СтажерВЛА-М1

Пространственно управляемая система видения-языка-действия для общей политики в отношении роботов. Шанхайская лаборатория искусственного интеллекта.

Обзор

InternVLA-M1 использует двухэтапный конвейер: (1) предварительное обучение пространственному заземлению на 2,3 млн выборок для определения «где действовать», (2) пост-обучение пространственно-ориентированным действиям для определения «как действовать». Модульный, расширяемый, с двойным контролем.

Тесты

  • Google Робот 71,7% (WidowX), 76,0% (WM), 80,7% (WA)
  • LIBERO 95,9% успеха
  • +14,6% для SimplerEnv, +20,6% для невидимых объектов при синтетическом совместном обучении

Официальные ссылки

Цитирование

пгт. сайт проекта BibTeX и ссылки на статьи.