Unidad 4: Entrena una política — Ruta de aprendizaje de LeRobot

Opciones de política

LeRobot ofrece tres arquitecturas de política listas para producción. Elige una antes de iniciar el entrenamiento; no puedes cambiarla a mitad de ejecución.

Recomendado para esta ruta

ACT

Transformadores de acción fragmentada. Mejor para manipulación hábil con un solo brazo. Se entrena en 1–3 horas en GPU. Hiperparámetros predecibles. Usa esto.

Política de Difusión

Mayor precisión máxima en tareas de precisión, pero 3–5 veces más lento para entrenar e inferir. Úsalo después de tener una línea base de ACT funcional.

SmolVLA

VLA condicionado por lenguaje. Úsalo cuando tu tarea requiera instrucciones en lenguaje natural o generalización de múltiples tareas. Requiere más datos.

Comando de entrenamiento ACT

Reemplaza $HF_USER/pick-place-v1 con el ID de repositorio de tu conjunto de datos de la Unidad 3.

source ~/lerobot-env/bin/activate

# Add --device cuda if you have a GPU (strongly recommended)
# Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/
# Start this before sleep — it can run unattended

Tiempo de entrenamiento en GPU vs CPU: En un RTX 3090 (24GB), 50,000 pasos toma aproximadamente 60–80 minutos. En un RTX 3080 (10GB), aproximadamente 90–120 minutos. En CPU, espera de 8 a 12 horas. Las opciones de GPU en la nube (Lambda Labs, Vast.ai) cuestan entre $0.50 y $1.50/hora por el hardware necesario.

Hiperparámetros recomendados para Pick-and-Place con un solo brazo

Parámetro	Recomendado	Por qué
num_steps	50000	Suficiente para 50–100 demostraciones de un simple pick-and-place. Aumentar a 80k si su meseta de pérdida ocurre tarde.
tamaño_lote	32	Estándar para conjuntos de datos de un solo brazo. Reducir a 16 si se queda sin memoria GPU.
tamaño_bloque	100	ACT planea 100 pasos por delante. A 30fps esto es ~3.3 segundos — un buen horizonte de planificación para pick-and-place.
n_pasos_de_acción	100	Debe coincidir con tamaño_bloque. Reduce la frecuencia de inferencia y suaviza la ejecución.
peso_kl	10	Predeterminado de LeRobot. No cambiar a menos que L_kl se mantenga cerca de cero después de 20k pasos.
tasa_aprendizaje	1e-5	Predeterminado de LeRobot para ACT. Bajar a 5e-6 si la pérdida de reconstrucción oscila en lugar de converger.

Lectura de Registros de Entrenamiento

Los registros de entrenamiento se imprimen en la terminal y en TensorBoard. Inicie TensorBoard en una segunda terminal:

tensorboard --logdir ~/lerobot-policies/

Luego abra http://localhost:6006 en su navegador. Observe estas curvas:

pérdida/reconstrucción (L_recon)

La señal de entrenamiento principal. Debería disminuir de ~2.5–3.5 a menos de 0.1 en 50,000 pasos. Una meseta por encima de 0.15 después de 40,000 pasos generalmente significa que su conjunto de datos tiene demasiada varianza — revise las buenas prácticas de demostración de la Unidad 3 y considere grabar demostraciones más consistentes.

pérdida/kl (L_kl)

Aumenta lentamente de cerca de 0 a 5–20. Este es un comportamiento esperado: el CVAE está aprendiendo un estilo de incrustación compacto. Si supera 40, tus demostraciones contienen demasiada diversidad de comportamiento. Si se mantiene cerca de 0 después de 20k pasos, el CVAE no está aprendiendo; aumenta kl_weight a 20.

entrenamiento/pérdida (pérdida total)

L_recon + kl_weight × L_kl. Dominada por L_recon en las primeras etapas de entrenamiento. Debería disminuir de manera monótona. Una pérdida total que aumenta después de una disminución inicial indica que la disminución de la tasa de aprendizaje es demasiado agresiva: verifica la configuración del programador.

Gestión de Puntos de Control

Los puntos de control se guardan cada 5,000 pasos en ~/lerobot-policies/pick-place-v1/checkpoints/. No asumas que el último punto de control es el mejor. La política puede sobreajustarse a altas cuentas de pasos, especialmente con conjuntos de datos pequeños.

Después del entrenamiento, identifica tu mejor punto de control: es el paso donde L_reconstrucción alcanzó su mínimo antes de comenzar a estabilizarse. Para 50 demostraciones, esto ocurre típicamente en el rango de 35,000 a 50,000 pasos. Guarda este número de paso: lo usarás en la Unidad 5.

Unidad 4 Completa Cuando...

El entrenamiento ha completado 50,000 pasos y los puntos de control se guardan en ~/lerobot-policies/pick-place-v1/checkpoints/. La pérdida final de L_reconstrucción está por debajo de 0.1. Has identificado tu mejor paso de punto de control basado en las curvas de pérdida. Entiendes lo que L_kl está haciendo en tu ejecución de entrenamiento. Estás listo para evaluar la política en la Unidad 5.