OpenVLA
Модель видения-языка-действия с открытым исходным кодом для роботизированных манипуляций. Стэнфорд, Беркли, TRI, Google DeepMind, Массачусетский технологический институт.
Обзор
OpenVLA — это модель видения-языка-действия (VLA) с 7B параметрами, обученная на 970 тыс. демонстрациях реальных роботов из Open X-Embodiment. Он сочетает в себе Llama 2 с объединенными визуальными кодировщиками (DINOv2 + SigLIP) и превосходит RT-2-X (55B) на 16,5% при в 7 раз меньшем количестве параметров.
Архитектура и обучение
- 7B параметры
- Магистраль Llama 2 + визуальный кодер DINOv2/SigLIP
- 970K Открыть демо-версии X-Embodiment
- Мультиробот, передача с нулевым выстрелом
- Тонкая настройка LoRA на потребительских графических процессорах
Официальные ссылки
- openvla.github.io — Сайт проекта
- github.com/openvla/openvla — Кодекс и обучение
- Обнимающее лицо: openvla — Модельные КПП
Цитирование
CoRL 2025. См. сайт проекта BibTeX.