ВЛА и ВЛМ
Модели «Видение-Язык-Действие» и «Видение-Язык» — управление роботом с использованием языка.
Что такое VLA и VLM?
VLM (модель визуального языка) — Мультимодальные модели, которые понимают и изображения, и текст. Используется для субтитров, VQA и заземления.
VLA (Видение-Язык-Действие) — VLM расширены для вывода действий робота. Получите изображения + языковые инструкции, выведите команды управления (например, положение суставов, захват). Включите элемент управления стилем «поднимите красный блок».
Ключевые модели
- OpenVLA — 7 миллиардов VLA с открытым исходным кодом, 970 тысяч демоверсий
- РТ-2 / РТ-Х — Семейство Google VLA
- Окто — Политика распространения с языковым обуславливанием
- РобоФламинго — VLM для роботов на базе OpenFlamingo.
Связанные ресурсы
- Модели VLA и VLM с открытым исходным кодом — Полный каталог со ссылками
- Наборы данных — Данные о манипуляциях с языковой маркировкой