← Modelos

OpenVLA

Modelo de Visión-Lenguaje-Acción de código abierto para la manipulación robótica. Stanford, Berkeley, TRI, Google DeepMind, MIT.

Resumen

OpenVLA es un modelo de visión-lenguaje-acción (VLA) de 7B parámetros entrenado en 970K demostraciones de robots del mundo real de Open X-Embodiment. Combina Llama 2 con codificadores visuales fusionados (DINOv2 + SigLIP) y supera a RT-2-X (55B) en un 16.5% con 7× menos parámetros.

Arquitectura y Entrenamiento

  • 7B parámetros
  • Backbone de Llama 2 + codificador visual DINOv2/SigLIP
  • 970K demostraciones de Open X-Embodiment
  • Multi-robot, transferencia cero-shot
  • Ajuste fino de LoRA en GPUs de consumo

Enlaces Oficiales

cita

CoRL 2025. Consulta el sitio del proyecto para BibTeX.