Política de Difusión para el Aprendizaje de Robots: Qué Es y Cómo Usarla

La Política de Difusión, introducida por Chi et al. en 2023, trajo la revolución del modelado generativo al control de robots. Al tratar la generación de acciones como un problema de eliminación de ruido, maneja la naturaleza multimodal y de alta dimensión del comportamiento de manipulación de maneras que los algoritmos de clonación de comportamiento más simples no pueden. Aquí está lo que necesitas saber para aplicarlo a tu propio proyecto de robótica.

¿Qué Es la Política de Difusión?

La Política de Difusión es una clase de políticas de control de robots basadas en modelos probabilísticos de difusión de eliminación de ruido (DDPMs), el mismo marco matemático que subyace a los modelos de texto a imagen como Stable Diffusion. En el contexto de los robots, la "imagen" que se genera es una secuencia de acciones del robot (una trayectoria). Comenzando desde ruido gaussiano puro en el espacio de acciones, el modelo elimina el ruido de manera iterativa condicionado a la observación visual actual y al estado del robot, produciendo una secuencia de acciones coherente y de alta calidad después de 10 a 100 pasos de eliminación de ruido.

La clave es que los modelos de difusión aprenden una distribución de probabilidad completa sobre las acciones en lugar de predecir una única mejor acción. Para la robótica, esto es crítico. Las demostraciones humanas de la misma tarea son naturalmente multimodales: una persona podría agarrar una taza desde el lado izquierdo o el derecho dependiendo de sutiles pistas contextuales. Un modelo que debe colapsar esta distribución a una única predicción se comprometerá a un modo y fallará la otra mitad del tiempo, o promediará los modos y producirá una trayectoria extraña intermedia que siempre falla. La Política de Difusión evita esto modelando la distribución explícitamente y muestreando de ella en el momento de la inferencia.

Por Qué la Política de Difusión Supera a la Clonación de Comportamiento Estándar

La clonación de comportamiento estándar (BC) entrena una política como un problema de regresión supervisada: dada una observación, predecir una acción. Esto funciona cuando el mapeo de observaciones a acciones es determinista y unimodal. En la práctica, las tareas de manipulación rara vez lo son. Incluso las tareas "simples" como recoger un bloque de una mesa implican múltiples ángulos de aproximación válidos, poses de agarre y configuraciones previas al agarre. La BC ingenua produce políticas que dudan en los puntos de decisión, hacen elecciones de movimiento comprometidas o fallan por completo cuando la distribución de prueba difiere ligeramente de la de entrenamiento.

La Política de Difusión supera consistentemente a las líneas base de BC en suites de manipulación de referencia. En el artículo original, logró resultados de vanguardia en 11 de 12 tareas en el benchmark Robomimic, con márgenes particularmente grandes en tareas con alta multimodalidad de acciones. En evaluaciones con robots reales, la Política de Difusión demostró un comportamiento de recuperación más robusto: cuando el robot alcanzó un estado intermedio ligeramente incorrecto, la política pudo recuperarse porque estaba muestreando de una amplia distribución en lugar de seguir un camino determinista.

En comparación con ACT (Fragmentación de Acciones con Transformadores), la Política de Difusión generalmente se desempeña mejor en tareas con fuerte multimodalidad y peor en tareas con dependencias de largo horizonte donde la predicción de fragmentos de ACT brilla. En la práctica, ambos algoritmos son lo suficientemente competitivos como para que la calidad y cantidad del conjunto de datos importen más que la elección de la arquitectura de la política. Si no estás seguro de cuál usar, prueba primero ACT por la velocidad de iteración, luego la Política de Difusión si observas fallos de promediado de modos.

Requisitos de Datos para la Política de Difusión

La Política de Difusión se beneficia de más datos que ACT, principalmente porque la red de eliminación de ruido tiene más parámetros y un objetivo de modelado más rico. Un mínimo práctico es de 100 a 200 demostraciones para una sola tarea en condiciones controladas. Para lograr un rendimiento robusto en el despliegue — manejando variaciones en la posición de los objetos, cambios de iluminación y ruido ocasional del sensor — presupuestar de 300 a 500 demostraciones por tarea. A diferencia de ACT, la Política de Difusión tiende a seguir mejorando con datos adicionales hasta tamaños de conjuntos de datos bastante grandes, lo que la convierte en la mejor opción si planeas invertir en un esfuerzo de recolección de datos a gran escala.

La diversidad de datos es tan importante como el volumen. Las demostraciones deben abarcar el rango de posiciones de objetos, orientaciones y configuraciones de escena que esperas en el despliegue. Un grupo compacto de demostraciones con objetos siempre en exactamente el mismo lugar producirá una política que falla en el momento en que un objeto se mueve unos pocos centímetros. servicio de recolección de datos gestionado SVRC sigue protocolos de variación estructurada — aleatorizando sistemáticamente las posiciones de los objetos, las condiciones de iluminación y los estilos de agarre del operador — para asegurar conjuntos de datos que produzcan políticas generalizables.

La representación de la observación también importa significativamente. La Política de Difusión con un codificador de imagen ResNet entrenado de extremo a extremo generalmente supera a las políticas que utilizan codificadores preentrenados congelados en distribuciones de tareas estrechas, pero los codificadores preentrenados (R3M, MVP, DINO) producen mejor generalización cuando las condiciones de prueba difieren de las de entrenamiento. Para la mayoría de los proyectos prácticos, comienza con un codificador preentrenado para maximizar el valor de tu conjunto de datos, y cambia a entrenamiento de extremo a extremo solo si tienes más de 500 demostraciones y un entorno estable.

Configuración de Entrenamiento y Requisitos de Cómputo

La implementación de referencia de la Política de Difusión (disponible en el GitHub del Laboratorio de Robótica de Columbia) entrena con un backbone UNet (inferencias más rápidas, menor capacidad) o un backbone Transformer (inferencias más lentas, mayor capacidad). Para la mayoría de los proyectos de una sola tarea, la variante UNet es el punto de partida correcto. Entrenar en una sola RTX 3090 o 4090 toma de 4 a 12 horas para un conjunto de datos de 200 episodios, dependiendo de la resolución de la observación y la longitud del horizonte de acción.

Hipótesis clave a establecer correctamente: el horizonte de acción (cuántos pasos futuros predecir — típicamente 16–32 para tareas de mesa), el número de pasos de difusión (100 para DDPM, 10–25 para DDIM con pérdida mínima de calidad) y la ventana de observación (cuántos cuadros pasados incluir — típicamente 2). No cambies los tres a la vez; fija los otros al ajustar uno. El cambio más impactante para mejorar el rendimiento de la política suele ser aumentar el tamaño del conjunto de datos, no ajustar los hiperparámetros de la arquitectura.

Para la inferencia en un robot real, DDPM a 100 pasos es típicamente demasiado lento para el control de alta frecuencia. Utilice el programador DDIM con 10-25 pasos, que funciona a ~20Hz en una RTX 3090 — adecuado para control de 10Hz con un búfer. Alternativamente, la destilación de políticas de consistencia puede lograr inferencia de 1-3 pasos con una degradación mínima del rendimiento para tareas más simples.

Uso de los Servicios de Datos SVRC para la Política de Difusión

SVRC's canal de servicios de datos produce conjuntos de datos formateados para uso directo con la implementación de referencia de la Política de Difusión y el marco HuggingFace LeRobot. Los episodios se almacenan como archivos ZARR con flujos de imágenes sincronizados, estado propioceptivo y acciones a 50Hz. El filtrado de calidad elimina episodios donde la tarea no se completó con éxito, el robot colisionó con el entorno, o la vacilación del operador produjo trayectorias no representativas.

Nuestro servicio de recolección utiliza el Plataforma de teleoperación SVRC con control de líder-seguidor capaz de doble brazo, cámaras montadas en la muñeca y en la parte superior, y registro opcional de fuerza-torque. Para el entrenamiento de Política de Difusión de múltiples tareas — donde una sola política aprende múltiples tareas condicionadas por ID de tarea o lenguaje — podemos recolectar a través de variantes de tarea dentro de la misma campaña y entregar un conjunto de datos unificado. Los equipos que trabajan con las plataformas de hardware OpenArm o ALOHA obtienen soporte nativo de hardware; la integración de hardware personalizado está disponible a solicitud. Contacte a nuestro equipo para discutir sus requisitos de datos y cronograma.

Relacionado: Aprendizaje por imitación para robots · Modelos VLA explicados · ¿Qué es el Datos de Entrenamiento de Robots? · Servicios de Datos · Referencias