Unidad 5: Entrena tu primera política — Camino de aprendizaje OpenArm

Lo que realmente hace el Aprendizaje por Imitación

Antes de ejecutar el comando de entrenamiento, tómate dos minutos para entender lo que el modelo está aprendiendo realmente. El aprendizaje por imitación entrena una red de políticas para mapear observaciones (imágenes de la cámara + estado actual de las articulaciones) a acciones (ángulos de las articulaciones siguientes). La red nunca recibe una señal de recompensa; solo ve tus demostraciones y aprende a reproducir la distribución de acciones que realizaste en estados similares.

ACT (División de Acciones con Transformadores) predice un bloquear de 100 acciones futuras a la vez en lugar de un solo paso. Esto previene la acumulación de errores a lo largo del episodio: incluso si una predicción individual está ligeramente desviada, el bloque proporciona un buffer de trayectoria estable. Luego vuelve a planificar cada 100 pasos de tiempo (2 segundos a 50Hz). Por eso ACT maneja tareas más largas mejor que la clonación de comportamiento simple.

Para el contexto teórico completo, lee Fundamentos del Aprendizaje por Imitación en la Biblioteca de Robótica.

¿GPU o CPU?

Entrenar en una GPU NVIDIA con 8GB+ de VRAM toma aproximadamente 45 minutos para 100k pasos. Entrenar en CPU toma de 3 a 4 horas para la misma ejecución. Ambos producen calidad de modelo equivalente: la GPU es solo más rápida. Si no tienes una GPU local, el comando de entrenamiento funciona de manera idéntica en una instancia en la nube (Lambda Labs o Google Colab con tiempo de ejecución A100). Las instrucciones están en el README del repositorio de LeRobot.

Entrena ACT en tu conjunto de datos

Ejecuta el script de entrenamiento desde tu entorno virtual. Los valores de configuración a continuación están calibrados para conjuntos de datos de pick-and-place de 50 episodios en OpenArm: no los cambies para tu primera ejecución:

source ~/openarm-env/bin/activate

# Training will print loss every 500 steps and eval results every 5000 steps
# Checkpoints saved every 10k steps to ~/openarm-policies/pick-and-place-v1/

Comienza el entrenamiento, luego monitorea la salida. No necesitas verlo todo el tiempo, pero revisa cada 20-30 minutos para confirmar que la pérdida está disminuyendo y que la ejecución no se ha bloqueado. El entrenamiento puede ejecutarse durante la noche mientras duermes.

Entendiendo las Curvas de Entrenamiento

La salida de entrenamiento de ACT muestra dos métricas clave. Aprende a leerlas correctamente: te indican si tu entrenamiento es saludable y cuándo detenerte.

Pérdida de Entrenamiento

Debería disminuir bruscamente en los primeros 20k pasos, luego continuar disminuyendo más lentamente. Una pérdida que se estabiliza por encima de 0.05 generalmente indica problemas de calidad de datos: revisa tu conjunto de datos. Una pérdida que oscila ampliamente sugiere que tu tasa de aprendizaje es demasiado alta.

Tasa de Éxito de Evaluación

Aparece cada 5k pasos (requiere un brazo físico o simulación). Este es el número que realmente importa. Quieres que esté por encima del 70% antes de implementar. A menudo se retrasa respecto a la pérdida de entrenamiento: la pérdida puede verse bien mientras la tasa de éxito aún está mejorando.

MSE de Acción

Error cuadrático medio entre las acciones predichas y las reales. Debería caer por debajo de 0.01 para una política de pick-and-place bien entrenada. Un alto MSE de acción después de 80k pasos significa que el modelo está luchando con la complejidad de la tarea o que tus datos son inconsistentes.

Divergencia KL (específica de ACT)

ACT utiliza un CVAE con un peso KL que se reduce de 0 a 10 durante el entrenamiento. Observa que esto se estabiliza alrededor del paso 40k. Si nunca converge, el modelo está fallando en codificar el estilo: intenta agregar más datos.

Cuándo detener el entrenamiento

No simplemente corre hasta 100k pasos y detente. Usa estas señales para decidir cuándo tu punto de control está listo para ser desplegado:

La tasa de éxito de evaluación se ha estabilizado durante 3 evaluaciones consecutivas — el modelo ha convergido. Un entrenamiento adicional no ayudará sin más o diferentes datos.
La tasa de éxito de evaluación está por encima del 70% — este es el umbral para el despliegue de la Unidad 6. Si alcanzas el 70% en 60k pasos, puedes detenerte temprano y desplegar ese punto de control.
La pérdida de entrenamiento sigue disminuyendo pero la evaluación es plana o está en declive — el modelo está sobreajustándose. Toma el último punto de control donde la evaluación estaba en su punto máximo. Este es el mejor punto de control.
Después de 100k pasos — si la tasa de éxito está por debajo del 40%, regresa a la Unidad 4. El problema de datos es más probable que un problema de entrenamiento en este punto.

Profundizaciones opcionales

Más allá de ACT — Política de Difusión y π₀

Una vez que tengas una política ACT funcional, el siguiente experimento natural es la Política de Difusión. Maneja tareas multimodales mejor (por ejemplo, el brazo puede acercarse al objeto desde dos ángulos) a costa de una inferencia más lenta. La sección de Investigación SVRC cubre ambos. Navegar artículos de investigación →

Unidad 5 Completa Cuando...

El entrenamiento ha finalizado (o lo has detenido en un buen punto de control). Tu tasa de éxito de evaluación está por encima del 70% en la tarea de recoger y colocar. Tienes un punto de control guardado en ~/openarm-policies/pick-and-place-v1/ y sabes qué número de paso produjo tu mejor resultado. Estás listo para poner esta política en el brazo real en la Unidad 6.