OpenVLA

Modelo de Visão-Linguagem-Ação de Código Aberto para manipulação robótica. Stanford, Berkeley, TRI, Google DeepMind, MIT.

Visão Geral

OpenVLA é um modelo de visão-linguagem-ação (VLA) com 7 bilhões de parâmetros treinado em 970K demonstrações de robôs do mundo real da Open X-Embodiment. Ele combina Llama 2 com codificadores visuais fundidos (DINOv2 + SigLIP) e supera o RT-2-X (55B) em 16,5% com 7× menos parâmetros.

Arquitetura & Treinamento

7B parâmetros
Backbone Llama 2 + codificador visual DINOv2/SigLIP
970K demonstrações do Open X-Embodiment
Multi-robô, transferência zero-shot
Ajuste fino LoRA em GPUs de consumo

Links Oficiais

openvla.github.io — Site do projeto
github.com/openvla/openvla — Código & treinamento
Hugging Face: openvla — Pontos de verificação do modelo

Citação

CoRL 2025. Veja o site do projeto para BibTeX.