OpenVLA
Modelo de Visão-Linguagem-Ação de Código Aberto para manipulação robótica. Stanford, Berkeley, TRI, Google DeepMind, MIT.
Visão Geral
OpenVLA é um modelo de visão-linguagem-ação (VLA) com 7 bilhões de parâmetros treinado em 970K demonstrações de robôs do mundo real da Open X-Embodiment. Ele combina Llama 2 com codificadores visuais fundidos (DINOv2 + SigLIP) e supera o RT-2-X (55B) em 16,5% com 7× menos parâmetros.
Arquitetura & Treinamento
- 7B parâmetros
- Backbone Llama 2 + codificador visual DINOv2/SigLIP
- 970K demonstrações do Open X-Embodiment
- Multi-robô, transferência zero-shot
- Ajuste fino LoRA em GPUs de consumo
Links Oficiais
- openvla.github.io — Site do projeto
- github.com/openvla/openvla — Código & treinamento
- Hugging Face: openvla — Pontos de verificação do modelo
Citação
CoRL 2025. Veja o site do projeto para BibTeX.