Modelos de Visión-Lenguaje-Acción Explicados: Cómo los VLA Potencian los Robots Modernos
Los modelos de visión-lenguaje-acción son el equivalente robótico de GPT-4: redes neuronales masivas y preentrenadas que pueden ajustarse para realizar una amplia gama de tareas físicas. Entender qué son los VLA, cómo funcionan y cuándo usarlos es ahora un conocimiento esencial para cualquier practicante serio de robótica.
¿Qué es un Modelo de Visión-Lenguaje-Acción?
Un modelo de visión-lenguaje-acción (VLA) es una red neuronal que toma observaciones visuales (imágenes de cámara) e instrucciones en lenguaje natural como entrada, y produce acciones robóticas: velocidades de articulaciones, poses de efectores finales o comandos de agarre. La parte de "visión-lenguaje" se refiere a la estructura preentrenada: estos modelos heredan su comprensión visual y semántica de un preentrenamiento a gran escala en pares de imagen-texto en internet, muy parecido a CLIP o un modelo de visión-lenguaje (VLM). La parte de "acción" es la cabeza de ajuste fino entrenada con datos de demostración robótica.
La idea central es que el preentrenamiento en datos de internet proporciona a la estructura del robot una rica representación del mundo físico: qué son los objetos, cómo se relacionan espacialmente y qué significa el lenguaje, antes de que haya visto alguna demostración robótica. El ajuste fino luego adapta esta representación a la encarnación del robot y a las tareas objetivo. Dado que la estructura ya entiende "recoge la taza azul" o "abre el cajón de la izquierda", el modelo puede generalizar a objetos novedosos y formulaciones de tareas con muchas menos demostraciones que una política entrenada desde cero.
RT-2: El Primer VLA a Gran Escala
RT-2 (Robotics Transformer 2), lanzado por Google DeepMind en 2023, fue la primera demostración de que escalar un modelo de visión-lenguaje para el control robótico producía capacidades cualitativamente nuevas. RT-2 ajustó conjuntamente un modelo de visión-lenguaje PaLI-X en datos web y trayectorias robóticas, produciendo una política que podía seguir instrucciones novedosas, razonar sobre propiedades de objetos y generalizar a objetos que nunca había visto en demostraciones robóticas, solo en internet.
RT-2 demostró que los VLA podían realizar razonamiento en cadena de pensamiento: al pedirle que recogiera "algo que puedas usar para limpiar un derrame", el modelo identificó una esponja de la escena sin haber sido explícitamente instruido para asociar esponjas con limpieza. Esta capacidad emergente —generalización semántica más allá de la distribución de entrenamiento— es lo que hace que los VLA sean cualitativamente diferentes de las políticas clásicas de aprendizaje por imitación. La compensación es el cómputo: RT-2 funciona con un modelo de 55 mil millones de parámetros, requiriendo una infraestructura significativa para su implementación.
OpenVLA: Ajuste Fino de VLA de Código Abierto
OpenVLA, lanzado por investigadores de Stanford y Berkeley en 2024, democratizó el ajuste fino de VLA al basarse en el VLM Prismatic de código abierto (que a su vez se basa en LLaMA) y entrenar en el conjunto de datos Open X-Embodiment: una colección de 970k episodios de demostraciones robóticas de 22 encarnaciones diferentes. OpenVLA es el punto de partida que la mayoría de los equipos de investigación utilizan hoy en día porque es completamente de código abierto, bien documentado y logra un rendimiento sólido en benchmarks de manipulación estándar.
Ajustar finamente OpenVLA en una tarea personalizada requiere tan solo de 50 a 200 demostraciones, un conjunto de datos formateado con las convenciones de HuggingFace LeRobot, y una sola GPU A100 o H100 de 80GB para una ejecución de entrenamiento de varias horas. La política resultante es sorprendentemente capaz de generalizar a variaciones de escena y posiciones de objetos novedosos no vistas en el entrenamiento, gracias a la estructura visual preentrenada. SVRC's servicio de recolección de datos produce conjuntos de datos en formato compatible con LeRobot, listos para el ajuste fino de OpenVLA directamente.
pi0: Política generalista de inteligencia física
pi0, de Physical Intelligence (pi.ai), representa la frontera comercial del desarrollo de VLA. A diferencia de OpenVLA, que hereda una estructura de modelo de lenguaje, pi0 utiliza una cabeza de acción de coincidencia de flujo que produce trayectorias de acción continuas y suaves, más adecuadas para tareas hábiles que acciones discretas tokenizadas. pi0 fue entrenado en un conjunto de datos propietario de más de 10,000 horas de demostraciones robóticas en docenas de tareas y plataformas de hardware.
Lo que distingue arquitectónicamente a pi0 es la separación entre la vía de razonamiento "lenta" condicionada por el lenguaje y la vía de control motor reactivo "rápida". Esto refleja ideas de la ciencia cognitiva sobre sistemas de control de doble proceso. La vía lenta procesa la instrucción de la tarea y la escena actual para producir un plan de alto nivel; la vía rápida genera comandos motores de baja latencia. El resultado es una política que puede manejar tanto el razonamiento a largo plazo como el control reactivo de alta frecuencia, abriendo la puerta a tareas como doblar la ropa, donde ambos son requeridos simultáneamente.
El acceso a pi0 para implementación comercial está disponible a través del programa empresarial de Physical Intelligence. Para equipos que exploran arquitecturas al estilo de pi0, SVRC's puntos de referencia incluir evaluaciones de políticas de coincidencia de flujo en suites de manipulación estándar, dándote un punto de referencia para el rendimiento esperado antes de comprometerte a una ejecución de entrenamiento.
Cómo difieren las VLA de las políticas clásicas de aprendizaje por imitación
Las políticas clásicas de IL — ACT, Diffusion Policy, BC-Z — aprenden completamente a partir de datos de demostración de robots. Sus representaciones visuales se aprenden desde cero o a partir de un codificador preentrenado estrecho (como R3M o MVP). Generalizan bien dentro de su distribución de entrenamiento, pero tienen dificultades con objetos nuevos, cambios de iluminación o instrucciones de tarea que reformulan el objetivo. También requieren más demostraciones para alcanzar un nivel de rendimiento dado porque carecen del conocimiento semántico que proporciona el preentrenamiento.
Las VLA intercambian computación por generalización. Una política ACT clásica en una GPU cuesta centavos por inferencia; un paso de inferencia de VLA en un modelo de 7B parámetros cuesta órdenes de magnitud más. Para tareas que necesitan generalizar ampliamente a través de entornos e instrucciones, las VLA ganan. Para una tarea industrial definida de manera estrecha y repetitiva donde tienes más de 1,000 demostraciones y puedes ajustar el entorno, una política clásica a menudo logra mejor velocidad y fiabilidad a un costo menor. El marco de decisión práctico: si tu tarea requiere generalización, comienza con una base VLA. Si es estrecha y de alto rendimiento, optimiza una política clásica.
Ajuste fino de VLA con datos de SVRC
SVRC proporciona soporte de extremo a extremo para proyectos de ajuste fino de VLA. Nuestro infraestructura de teleoperación captura demostraciones en formato RLDS/LeRobot con video de múltiples cámaras sincronizadas, estado proprioceptivo y etiquetas de acción a 50Hz. Nuestras tuberías de datos incluyen filtrado de calidad de episodios (eliminando intentos fallidos y vacilaciones), metadatos de calibración de cámaras y anotación de instrucciones de tarea.
Para equipos que necesitan datos personalizados a gran escala, nuestro servicio de recolección gestionado en la instalación de Palo Alto puede producir cientos de demostraciones por día con operadores capacitados en una biblioteca de tareas de manipulación. También ofrecemos consultoría sobre diseño de tareas: definiendo el alcance, ejes de variación y criterios de éxito para un conjunto de datos que realmente entrenará una política generalizable. Contacte a nuestro equipo para discutir tu proyecto de ajuste fino de VLA, o explorar nuestro catálogo de conjuntos de datos existentes a través de la plataforma SVRC.