OpenVLA

Modelo de Visión-Lenguaje-Acción de código abierto para la manipulación robótica. Stanford, Berkeley, TRI, Google DeepMind, MIT.

Resumen

OpenVLA es un modelo de visión-lenguaje-acción (VLA) de 7B parámetros entrenado en 970K demostraciones de robots del mundo real de Open X-Embodiment. Combina Llama 2 con codificadores visuales fusionados (DINOv2 + SigLIP) y supera a RT-2-X (55B) en un 16.5% con 7× menos parámetros.

Arquitectura y Entrenamiento

7B parámetros
Backbone de Llama 2 + codificador visual DINOv2/SigLIP
970K demostraciones de Open X-Embodiment
Multi-robot, transferencia cero-shot
Ajuste fino de LoRA en GPUs de consumo

Enlaces Oficiales

openvla.github.io — Sitio del proyecto
github.com/openvla/openvla — Código y entrenamiento
Hugging Face: openvla — Puntos de control del modelo

cita

CoRL 2025. Consulta el sitio del proyecto para BibTeX.