OpenVLA
Modelo de Visión-Lenguaje-Acción de código abierto para la manipulación robótica. Stanford, Berkeley, TRI, Google DeepMind, MIT.
Resumen
OpenVLA es un modelo de visión-lenguaje-acción (VLA) de 7B parámetros entrenado en 970K demostraciones de robots del mundo real de Open X-Embodiment. Combina Llama 2 con codificadores visuales fusionados (DINOv2 + SigLIP) y supera a RT-2-X (55B) en un 16.5% con 7× menos parámetros.
Arquitectura y Entrenamiento
- 7B parámetros
- Backbone de Llama 2 + codificador visual DINOv2/SigLIP
- 970K demostraciones de Open X-Embodiment
- Multi-robot, transferencia cero-shot
- Ajuste fino de LoRA en GPUs de consumo
Enlaces Oficiales
- openvla.github.io — Sitio del proyecto
- github.com/openvla/openvla — Código y entrenamiento
- Hugging Face: openvla — Puntos de control del modelo
cita
CoRL 2025. Consulta el sitio del proyecto para BibTeX.