ВЛА и ВЛМ

Модели «Видение-Язык-Действие» и «Видение-Язык» — управление роботом с использованием языка.

Что такое VLA и VLM?

VLM (модель визуального языка) — Мультимодальные модели, которые понимают и изображения, и текст. Используется для субтитров, VQA и заземления.

VLA (Видение-Язык-Действие) — VLM расширены для вывода действий робота. Получите изображения + языковые инструкции, выведите команды управления (например, положение суставов, захват). Включите элемент управления стилем «поднимите красный блок».

Ключевые модели

OpenVLA — 7 миллиардов VLA с открытым исходным кодом, 970 тысяч демоверсий
РТ-2 / РТ-Х — Семейство Google VLA
Окто — Политика распространения с языковым обуславливанием
РобоФламинго — VLM для роботов на базе OpenFlamingo.

Связанные ресурсы

Модели VLA и VLM с открытым исходным кодом — Полный каталог со ссылками
Наборы данных — Данные о манипуляциях с языковой маркировкой