Opciones de política
LeRobot ofrece tres arquitecturas de política listas para producción. Elige una antes de iniciar el entrenamiento; no puedes cambiarla a mitad de ejecución.
ACT
Transformadores de acción fragmentada. Mejor para manipulación hábil con un solo brazo. Se entrena en 1–3 horas en GPU. Hiperparámetros predecibles. Usa esto.
Política de Difusión
Mayor precisión máxima en tareas de precisión, pero 3–5 veces más lento para entrenar e inferir. Úsalo después de tener una línea base de ACT funcional.
SmolVLA
VLA condicionado por lenguaje. Úsalo cuando tu tarea requiera instrucciones en lenguaje natural o generalización de múltiples tareas. Requiere más datos.
Comando de entrenamiento ACT
Reemplaza $HF_USER/pick-place-v1 con el ID de repositorio de tu conjunto de datos de la Unidad 3.
Hiperparámetros recomendados para Pick-and-Place con un solo brazo
| Parámetro | Recomendado | Por qué |
|---|---|---|
| num_steps | 50000 | Suficiente para 50–100 demostraciones de un simple pick-and-place. Aumentar a 80k si su meseta de pérdida ocurre tarde. |
| tamaño_lote | 32 | Estándar para conjuntos de datos de un solo brazo. Reducir a 16 si se queda sin memoria GPU. |
| tamaño_bloque | 100 | ACT planea 100 pasos por delante. A 30fps esto es ~3.3 segundos — un buen horizonte de planificación para pick-and-place. |
| n_pasos_de_acción | 100 | Debe coincidir con tamaño_bloque. Reduce la frecuencia de inferencia y suaviza la ejecución. |
| peso_kl | 10 | Predeterminado de LeRobot. No cambiar a menos que L_kl se mantenga cerca de cero después de 20k pasos. |
| tasa_aprendizaje | 1e-5 | Predeterminado de LeRobot para ACT. Bajar a 5e-6 si la pérdida de reconstrucción oscila en lugar de converger. |
Lectura de Registros de Entrenamiento
Los registros de entrenamiento se imprimen en la terminal y en TensorBoard. Inicie TensorBoard en una segunda terminal:
Luego abra http://localhost:6006 en su navegador. Observe estas curvas:
pérdida/reconstrucción (L_recon)
La señal de entrenamiento principal. Debería disminuir de ~2.5–3.5 a menos de 0.1 en 50,000 pasos. Una meseta por encima de 0.15 después de 40,000 pasos generalmente significa que su conjunto de datos tiene demasiada varianza — revise las buenas prácticas de demostración de la Unidad 3 y considere grabar demostraciones más consistentes.
pérdida/kl (L_kl)
Aumenta lentamente de cerca de 0 a 5–20. Este es un comportamiento esperado: el CVAE está aprendiendo un estilo de incrustación compacto. Si supera 40, tus demostraciones contienen demasiada diversidad de comportamiento. Si se mantiene cerca de 0 después de 20k pasos, el CVAE no está aprendiendo; aumenta kl_weight a 20.
entrenamiento/pérdida (pérdida total)
L_recon + kl_weight × L_kl. Dominada por L_recon en las primeras etapas de entrenamiento. Debería disminuir de manera monótona. Una pérdida total que aumenta después de una disminución inicial indica que la disminución de la tasa de aprendizaje es demasiado agresiva: verifica la configuración del programador.
Gestión de Puntos de Control
Los puntos de control se guardan cada 5,000 pasos en ~/lerobot-policies/pick-place-v1/checkpoints/. No asumas que el último punto de control es el mejor. La política puede sobreajustarse a altas cuentas de pasos, especialmente con conjuntos de datos pequeños.
Después del entrenamiento, identifica tu mejor punto de control: es el paso donde L_reconstrucción alcanzó su mínimo antes de comenzar a estabilizarse. Para 50 demostraciones, esto ocurre típicamente en el rango de 35,000 a 50,000 pasos. Guarda este número de paso: lo usarás en la Unidad 5.
Unidad 4 Completa Cuando...
El entrenamiento ha completado 50,000 pasos y los puntos de control se guardan en ~/lerobot-policies/pick-place-v1/checkpoints/. La pérdida final de L_reconstrucción está por debajo de 0.1. Has identificado tu mejor paso de punto de control basado en las curvas de pérdida. Entiendes lo que L_kl está haciendo en tu ejecución de entrenamiento. Estás listo para evaluar la política en la Unidad 5.