← Glosario

VLA y VLM

Modelos de Visión-Lenguaje-Acción y Visión-Lenguaje — control de robots condicionado por lenguaje.

¿Qué son VLA y VLM?

VLM (Modelo de Visión-Lenguaje) — Modelos multimodales que entienden tanto imágenes como texto. Utilizados para subtitulado, VQA y anclaje.

VLA (Visión-Lenguaje-Acción) — VLMs ampliados para generar acciones de robots. Toman imágenes + instrucciones en lenguaje, generan comandos de control (por ejemplo, posiciones de juntas, pinzas). Permiten el control estilo "recoge el bloque rojo".

Modelos Clave

  • OpenVLA — VLA de código abierto de 7B, 970K demostraciones
  • RT-2 / RT-X — La familia VLA de Google
  • Octo — Política de difusión con condicionamiento de lenguaje
  • RoboFlamingo — VLM basado en OpenFlamingo para robots

Recursos relacionados