← Модели

OpenVLA

Модель видения-языка-действия с открытым исходным кодом для роботизированных манипуляций. Стэнфорд, Беркли, TRI, Google DeepMind, Массачусетский технологический институт.

Обзор

OpenVLA — это модель видения-языка-действия (VLA) с 7B параметрами, обученная на 970 тыс. демонстрациях реальных роботов из Open X-Embodiment. Он сочетает в себе Llama 2 с объединенными визуальными кодировщиками (DINOv2 + SigLIP) и превосходит RT-2-X (55B) на 16,5% при в 7 раз меньшем количестве параметров.

Архитектура и обучение

  • 7B параметры
  • Магистраль Llama 2 + визуальный кодер DINOv2/SigLIP
  • 970K Открыть демо-версии X-Embodiment
  • Мультиробот, передача с нулевым выстрелом
  • Тонкая настройка LoRA на потребительских графических процессорах

Официальные ссылки

Цитирование

CoRL 2025. См. сайт проекта BibTeX.