← Глоссарий

ВЛА и ВЛМ

Модели «Видение-Язык-Действие» и «Видение-Язык» — управление роботом с использованием языка.

Что такое VLA и VLM?

VLM (модель визуального языка) — Мультимодальные модели, которые понимают и изображения, и текст. Используется для субтитров, VQA и заземления.

VLA (Видение-Язык-Действие) — VLM расширены для вывода действий робота. Получите изображения + языковые инструкции, выведите команды управления (например, положение суставов, захват). Включите элемент управления стилем «поднимите красный блок».

Ключевые модели

  • OpenVLA — 7 миллиардов VLA с открытым исходным кодом, 970 тысяч демоверсий
  • РТ-2 / РТ-Х — Семейство Google VLA
  • Окто — Политика распространения с языковым обуславливанием
  • РобоФламинго — VLM для роботов на базе OpenFlamingo.

Связанные ресурсы