Aprendizaje por Imitación para Robots: Una Guía Práctica
El aprendizaje por imitación ha surgido como el paradigma dominante para enseñar a los robots habilidades de manipulación hábil. En lugar de crear funciones de recompensa a mano o escribir planes de movimiento, simplemente le muestras al robot qué hacer. Esta guía explica cómo funciona, qué algoritmos usar y qué infraestructura necesitas para obtener resultados.
¿Qué es el Aprendizaje por Imitación?
El aprendizaje por imitación (IL), también llamado aprendizaje por demostración (LfD) o clonación de comportamiento, entrena una política para replicar acciones capturadas de un operador humano. Durante la recolección de datos, un demostrador hábil teleopera el robot a través de la tarea objetivo mientras los sensores registran posiciones de las articulaciones, poses del efector final, cuadros de cámara y cualquier otro estado relevante. Esos datos grabados se convierten en el conjunto de entrenamiento para una política de red neuronal.
El atractivo del IL sobre el aprendizaje por refuerzo es práctico: no necesitas diseñar una señal de recompensa, ejecutar millones de simulaciones o resolver un problema de exploración con recompensas escasas. Si un humano puede realizar la tarea, el robot puede potencialmente aprenderla de unas pocas cientos a unas pocas miles de demostraciones. El desafío es la generalización: las políticas entrenadas en demostraciones estrechas pueden fallar cuando las posiciones de los objetos, la iluminación o las variaciones de la tarea difieren de la distribución de entrenamiento.
La investigación moderna en IL aborda esto a través de mejores arquitecturas, conjuntos de datos más grandes y diversos, y representaciones visuales preentrenadas. El campo ha avanzado rápidamente desde 2023, y el aprendizaje por imitación de calidad de producción ahora está al alcance de equipos sin acceso a un programa de doctorado en robótica.
ACT: Agrupación de Acciones con Transformadores
ACT, introducido junto con la plataforma robótica bimanual ALOHA de Stanford, trata el control del robot como un problema de predicción de secuencias. La política predice un grupo de acciones futuras —típicamente de 50 a 100 pasos de tiempo— en lugar de una sola acción siguiente. Esta agrupación de acciones reduce el error acumulativo, que es el principal modo de fallo del clonaje de comportamiento ingenuo donde pequeños errores de predicción se acumulan a lo largo de una trayectoria.
ACT utiliza un CVAE (Autoencoder Variacional Condicional) durante el entrenamiento para capturar la multimodalidad de las demostraciones humanas —el hecho de que a menudo hay más de una forma correcta de completar una tarea. En el momento de la inferencia, el decodificador genera secuencias de acciones condicionadas a las observaciones actuales de la cámara y al estado de las articulaciones. El resultado es una política que maneja la variación natural en las tareas demostradas por humanos sin artefactos de promediado de modos.
ACT es un buen punto de partida para tareas de manipulación bimanual. Requiere volúmenes de datos relativamente modestos (50–200 demostraciones por tarea) y se entrena en una sola GPU en horas. Si estás trabajando con hardware ALOHA o una configuración bimanual similar, ACT debería ser tu primer algoritmo a probar. servicios de datos SVRC incluye conjuntos de datos preprocesados compatibles con ACT recopilados en plataformas de clase ALOHA.
Política de Difusión: Manejo de Distribuciones de Acciones Multimodales
La Política de Difusión aplica modelos de difusión de emparejamiento de puntuaciones —la misma clase de modelos que impulsa Stable Diffusion para imágenes— al espacio de acción del robot. En lugar de predecir una única mejor acción, la política aprende la distribución completa de acciones que un demostrador humano podría tomar. En el momento de la inferencia, ejecuta un proceso de desruido para muestrear una acción de alta calidad de esa distribución.
La principal ventaja sobre ACT es cómo maneja tareas multimodales: escenarios donde un humano podría agarrar un objeto desde la izquierda o la derecha, o acercarse a un objetivo desde múltiples ángulos válidos. El clonaje de comportamiento estándar promedia estos modos, produciendo una política que va por el medio y falla. La Política de Difusión muestrea del modo correcto dado el contexto actual, produciendo un comportamiento más robusto en tareas ambiguas.
La compensación es la velocidad de inferencia. La Política de Difusión con un backbone UNet requiere 100 pasos de desruido en la inferencia por defecto, lo que puede ser demasiado lento para el control en tiempo real. El muestreador DDIM y las variantes de destilación de consistencia reducen esto a 10–25 pasos, haciendo viable la operación en tiempo real. En cuanto a los requisitos de datos, la Política de Difusión generalmente se beneficia de más demostraciones que ACT, pero recompensa la diversidad del conjunto de datos más que la cantidad bruta.
Modelos de Visión-Lenguaje-Acción: IL a Escala
Los VLA como OpenVLA, pi0 y RT-2 extienden el aprendizaje por imitación al preentrenarse en datos visuales y de lenguaje a escala de internet antes de afinarse en demostraciones robóticas. El backbone preentrenado proporciona una rica representación de objetos, escenas y relaciones que se transfiere poderosamente a la manipulación robótica. La afinación requiere muchas menos demostraciones que el entrenamiento desde cero —a veces tan solo 10–50 ejemplos específicos de la tarea.
Para equipos que pueden permitirse los requisitos de computación y licencias, los VLA representan la frontera actual del rendimiento de IL. Generalizan mejor a objetos novedosos, nuevos entornos y variaciones de tareas especificadas por lenguaje. SVRC proporciona conjuntos de datos de afinación y infraestructura de teleoperación compatibles con los formatos de datos esperados por las principales tuberías de entrenamiento de VLA. Consulta nuestro guía de modelos VLA explicados para un desglose técnico más profundo.
Requisitos de Datos para el Aprendizaje por Imitación
El conjunto de datos mínimo viable para una sola tarea de manipulación es típicamente de 50 demostraciones para ACT, 100–200 para la Política de Difusión y 20–50 para la afinación de VLA. Estas son estimaciones mínimas en condiciones favorables —iluminación consistente, puntos de vista de cámara fijos y objetos en posiciones predecibles. El despliegue en el mundo real requiere de 3 a 5 veces más datos para cubrir la variación que tu sistema encontrará en producción.
La calidad de los datos importa tanto como la cantidad. Las demostraciones deben ser recopiladas por operadores capacitados que completen la tarea de manera consistente y limpia. Los intentos fallidos, las vacilaciones y las correcciones que ingresan al conjunto de entrenamiento como éxitos etiquetados degradarán el rendimiento de la política. servicio de recolección de datos gestionado SVRC proporciona operadores capacitados, selección de episodios filtrados por calidad y empaquetado estructurado de conjuntos de datos —ahorrando a tu equipo de ingeniería semanas de trabajo en la tubería de datos.
La diversidad de sensores también es importante. Las políticas entrenadas en una sola cámara de muñeca a menudo fallan cuando esa cámara está oculta. La mejor práctica es recopilar desde al menos dos puntos de vista de la cámara: una vista fija desde arriba o lateral y una montada en la muñeca, e incluir el estado propioceptivo (ángulos y velocidades de las articulaciones) junto con las observaciones visuales.
Hardware e infraestructura para la investigación en IL
La pila de hardware mínima para un proyecto de investigación en aprendizaje por imitación incluye: un brazo robótico con suficientes grados de libertad para su tarea (al menos 6-DOF para manipulación general), un sistema de teleoperación líder-seguidor o basado en VR para la recopilación de datos, dos o más cámaras, y una estación de trabajo con al menos una GPU NVIDIA (RTX 3090 o mejor para ACT/Diffusion Policy; A100 o H100 recomendadas para el ajuste fino de VLA).
SVRC's catálogo de hardware incluye la plataforma OpenArm, que se envía con un brazo líder de teleoperación compatible y hardware de montaje para configuraciones de cámara estándar. El plataforma SVRC proporciona la capa de software: grabación de episodios, gestión de conjuntos de datos, tuberías de entrenamiento de políticas y herramientas de evaluación. Los equipos pueden arrendar en lugar de comprar hardware para proyectos a corto plazo a través del programa de arrendamiento de robots, que a menudo es el camino más rápido hacia un prototipo funcional de IL.
Para los equipos que desean comenzar con datos antes de invertir en hardware, SVRC ofrece acceso a conjuntos de datos de demostración de múltiples tareas curados, recopilados en nuestra instalación de Palo Alto. Estos conjuntos de datos cubren primitivas de manipulación comunes: recoger, colocar, verter, doblar, ensamblar, y están formateados para su uso directo con ACT, Diffusion Policy y Hugging Face LeRobot. Contacte a nuestro equipo para discutir las opciones de acceso a conjuntos de datos.