VLA y VLM
Modelos de Visión-Lenguaje-Acción y Visión-Lenguaje — control de robots condicionado por lenguaje.
¿Qué son VLA y VLM?
VLM (Modelo de Visión-Lenguaje) — Modelos multimodales que entienden tanto imágenes como texto. Utilizados para subtitulado, VQA y anclaje.
VLA (Visión-Lenguaje-Acción) — VLMs ampliados para generar acciones de robots. Toman imágenes + instrucciones en lenguaje, generan comandos de control (por ejemplo, posiciones de juntas, pinzas). Permiten el control estilo "recoge el bloque rojo".
Modelos Clave
- OpenVLA — VLA de código abierto de 7B, 970K demostraciones
- RT-2 / RT-X — La familia VLA de Google
- Octo — Política de difusión con condicionamiento de lenguaje
- RoboFlamingo — VLM basado en OpenFlamingo para robots
Recursos relacionados
- Modelos VLA y VLM de Código Abierto — Catálogo completo con enlaces
- Conjuntos de Datos — Datos de manipulación etiquetados por lenguaje