VLA y VLM

Modelos de Visión-Lenguaje-Acción y Visión-Lenguaje — control de robots condicionado por lenguaje.

¿Qué son VLA y VLM?

VLM (Modelo de Visión-Lenguaje) — Modelos multimodales que entienden tanto imágenes como texto. Utilizados para subtitulado, VQA y anclaje.

VLA (Visión-Lenguaje-Acción) — VLMs ampliados para generar acciones de robots. Toman imágenes + instrucciones en lenguaje, generan comandos de control (por ejemplo, posiciones de juntas, pinzas). Permiten el control estilo "recoge el bloque rojo".

Modelos Clave

OpenVLA — VLA de código abierto de 7B, 970K demostraciones
RT-2 / RT-X — La familia VLA de Google
Octo — Política de difusión con condicionamiento de lenguaje
RoboFlamingo — VLM basado en OpenFlamingo para robots

Recursos relacionados

Modelos VLA y VLM de Código Abierto — Catálogo completo con enlaces
Conjuntos de Datos — Datos de manipulación etiquetados por lenguaje