Política ACT Explicada: Fragmentación de Acciones con Transformadores para el Aprendizaje de Robots

ACT — Fragmentación de Acciones con Transformadores — se convirtió en uno de los algoritmos de aprendizaje por imitación más adoptados para la manipulación hábil después de su publicación por Tony Zhao y colaboradores en Stanford. Aquí hay una explicación práctica de cómo funciona y cómo usarlo.

¿Qué es ACT?

ACT es un algoritmo de aprendizaje por imitación diseñado para tareas de manipulación de alta precisión donde el robot debe realizar movimientos suaves y coordinados basados en observaciones visuales. En el momento de la inferencia, ACT toma una secuencia de imágenes de las cámaras del robot y el estado actual de las articulaciones, y produce un fragmento de acciones futuras — una corta secuencia de objetivos de posición de las articulaciones — en lugar de una única acción siguiente. El robot ejecuta este fragmento, luego vuelve a consultar la política para el siguiente fragmento. Este diseño de predecir muchos pasos adelante es la característica definitoria de ACT y la fuente de la mayoría de sus ventajas sobre la clonación de comportamiento más simple.

ACT fue introducido en el contexto del sistema de manipulación bimanual ALOHA y demostró éxito en tareas que anteriormente se consideraban fuera de alcance para el aprendizaje por imitación: colocar una batería, abrir una bolsa ziploc, enhebrar una aguja. Su idea central — que la predicción de acciones fragmentadas reduce errores acumulativos y suaviza trayectorias — ha sido adoptada desde entonces en numerosos algoritmos posteriores.

Cómo Funciona la Fragmentación de Acciones

La clonación de comportamiento estándar (BC) entrena una política para predecir la siguiente acción única dada la observación actual. En el momento de la inferencia, los errores de predicción se acumulan: cada pequeño error desplaza ligeramente el estado del robot, colocándolo en una distribución en la que la política no fue entrenada, lo que causa que la siguiente predicción sea peor, y así sucesivamente. Este error acumulativo es el modo de falla central de la BC ingenua en tareas de manipulación fina.

La fragmentación de acciones rompe este ciclo al predecir una secuencia de k acciones futuras — típicamente de 50 a 100 pasos a 50 Hz, correspondientes a 1-2 segundos de movimiento. La política se compromete a este plan y lo ejecuta antes de volver a consultar. Debido a que el plan fue generado a partir de una única observación consistente, la trayectoria es suave y coherente internamente. La agrupación temporal — promediando fragmentos de acción superpuestos de múltiples reconsultas — suaviza aún más la ejecución y reduce el temblor en los límites entre fragmentos.

ACT Arquitectura

ACT utiliza una arquitectura CVAE (Autoencoder Variacional Condicional). Durante el entrenamiento, un codificador procesa toda la trayectoria de demostración — imágenes, estados de las articulaciones y acciones — y produce una variable de estilo latente z que captura el "estilo" de la demostración (rápido vs lento, enfoque inclinado a la izquierda vs a la derecha, etc.). Un decodificador basado en transformadores luego toma la observación actual, el latente z y codificaciones posicionales, y predice el fragmento de acción. En el momento de la inferencia, z se establece en cero (la media del previo), haciendo que la política sea determinista dada la observación.

La base visual es típicamente un ResNet-18 que procesa cada vista de cámara de manera independiente, con los mapas de características resultantes pasados como tokens al decodificador de transformadores. Múltiples vistas de cámara — cámaras de muñeca más cámaras aéreas — cada una contribuye con un flujo de tokens, proporcionando a la política información espacial rica sobre la escena de manipulación.

Requisitos de Datos y Qué Constituye Buen Datos

ACT funciona bien con 50-200 demostraciones por tarea en la mayoría de los resultados publicados. Sin embargo, la calidad de los datos importa más que la cantidad. Las demostraciones deben ser suaves y con propósito — la política ACT aprenderá cualquier patrón de movimiento que esté en los datos, incluyendo vacilaciones, correcciones y enfoques subóptimos. estándar de recolección de datos requiere que los operadores reinicien un episodio en lugar de continuar después de un error visible, asegurando que el conjunto de datos de entrenamiento contenga solo comportamientos intencionales y exitosos.

La consistencia de la cámara también es crítica. Si la colocación de la cámara cambia entre sesiones de grabación, las características visuales que la política aprendió ya no coincidirán con la configuración de implementación. Utilice montajes físicos en lugar de brazos flexibles, y registre los parámetros de calibración de la cámara con cada conjunto de datos. La tubería de grabación de múltiples cámaras de SVRC hace esto automáticamente.

ACT vs Clonación de Comportamiento: Resultados

En las tareas originales de ALOHA, ACT logró tasas de éxito del 80-95% en comparación con el 20-50% para la BC estándar en los mismos datos. La mejora es más pronunciada en tareas que requieren un tiempo preciso, coordinación suave entre dos brazos y recuperación elegante de pequeñas perturbaciones. En tareas más simples de recoger y colocar con tolerancias indulgentes, la brecha entre ACT y BC se estrecha. ACT también supera a Diffusion Policy en tareas donde la velocidad de ejecución importa, ya que las políticas basadas en difusión requieren más computación por paso de inferencia.

Entrenamiento de ACT con datos de SVRC

SVRC's plataforma de datos exporta conjuntos de datos en formato HDF5 compatible con LeRobot, que es el formato de entrada estándar para el código de entrenamiento ACT de código abierto. Después de descargar su conjunto de datos, entrenar una política base de ACT requiere una GPU con al menos 16 GB de VRAM y aproximadamente 8 horas de entrenamiento para una sola tarea. El soporte de ingeniería de SVRC está disponible para ayudar a los equipos a configurar ejecuciones de entrenamiento, ajustar el tamaño de los bloques y la tasa de aprendizaje, y evaluar el rendimiento de la política. Para hardware para recopilar sus propios datos, consulte nuestro catálogo de hardware o explorar opciones de arrendamiento de robots.

Relacionado: Guía de LeRobot · Configuración de ALOHA Móvil · Anotación de Datos de Robots · Open X-Embodiment