← Modelos

OpenVLA

Modelo de Visão-Linguagem-Ação de Código Aberto para manipulação robótica. Stanford, Berkeley, TRI, Google DeepMind, MIT.

Visão Geral

OpenVLA é um modelo de visão-linguagem-ação (VLA) com 7 bilhões de parâmetros treinado em 970K demonstrações de robôs do mundo real da Open X-Embodiment. Ele combina Llama 2 com codificadores visuais fundidos (DINOv2 + SigLIP) e supera o RT-2-X (55B) em 16,5% com 7× menos parâmetros.

Arquitetura & Treinamento

  • 7B parâmetros
  • Backbone Llama 2 + codificador visual DINOv2/SigLIP
  • 970K demonstrações do Open X-Embodiment
  • Multi-robô, transferência zero-shot
  • Ajuste fino LoRA em GPUs de consumo

Links Oficiais

Citação

CoRL 2025. Veja o site do projeto para BibTeX.