OpenVLA

Модель видения-языка-действия с открытым исходным кодом для роботизированных манипуляций. Стэнфорд, Беркли, TRI, Google DeepMind, Массачусетский технологический институт.

Обзор

OpenVLA — это модель видения-языка-действия (VLA) с 7B параметрами, обученная на 970 тыс. демонстрациях реальных роботов из Open X-Embodiment. Он сочетает в себе Llama 2 с объединенными визуальными кодировщиками (DINOv2 + SigLIP) и превосходит RT-2-X (55B) на 16,5% при в 7 раз меньшем количестве параметров.

Архитектура и обучение

7B параметры
Магистраль Llama 2 + визуальный кодер DINOv2/SigLIP
970K Открыть демо-версии X-Embodiment
Мультиробот, передача с нулевым выстрелом
Тонкая настройка LoRA на потребительских графических процессорах

Официальные ссылки

openvla.github.io — Сайт проекта
github.com/openvla/openvla — Кодекс и обучение
Обнимающее лицо: openvla — Модельные КПП

Цитирование

CoRL 2025. См. сайт проекта BibTeX.