Unidad 5: Evalúa Tu Política — Camino de Aprendizaje LeRobot

Evaluación de Simulación

Siempre evalúa primero en simulación, incluso si tienes un robot real. La evaluación en simulación es rápida, segura y te proporciona un número base reproducible con el que puedes comparar después de reentrenar.

source ~/lerobot-env/bin/activate

# Evaluate your best checkpoint (replace step_050000 with your checkpoint step)
python -m lerobot.scripts.eval\

# Outputs: success_rate, mean_reward, episode_videos/

Qué esperar: Una política bien entrenada en 50 demostraciones de simulación debería lograr una tasa de éxito del 60–85% en MuJoCo. Por debajo del 40% sugiere un problema de calidad del conjunto de datos. Por encima del 85% significa que la tarea es demasiado fácil o el entorno de simulación es demasiado indulgente: prueba una variante más difícil.

Lista de verificación de seguridad para robots reales

Si estás evaluando en un robot real, repasa esta lista de verificación antes de tu primer despliegue. Una política no probada puede moverse de maneras inesperadas.

Limpia el espacio de trabajo de cualquier objeto que no forme parte de la tarea. La política aprendió a actuar en un contexto visual específico: objetos inesperados pueden causar comportamientos erráticos.
Mantente en la parada de emergencia (E-stop) o prepárate para presionar Ctrl+C durante toda la sesión de evaluación. No te alejes de una política en funcionamiento.
Comienza con la velocidad limitada al 50% máximo. Reduce al 30% si el primer intento parece tembloroso o impreciso.
Coloca los objetos para que coincidan exactamente con la configuración de tu espacio de trabajo de entrenamiento. Usa el mismo ángulo de cámara, la misma iluminación, los mismos colores de objeto. El cambio de distribución es la causa más común de una tasa de éxito real del 0%.
Nunca evalúes por encima de los límites de parada física de las articulaciones de tu robot. Verifica esto en la configuración de tu robot antes de la primera ejecución.

Protocolo de Evaluación de Robots Reales

Realiza exactamente 20 ensayos. Esto te da suficientes muestras para una estimación confiable de la tasa de éxito (±10% al 95% de nivel de confianza). Graba cada ensayo en video: necesitarás las grabaciones para diagnosticar modos de falla.

# Run the policy on your real robot
python -m lerobot.scripts.control_robot \

Después de cada ensayo, califícalo manualmente: 1 por éxito completo de la tarea, 0 por cualquier falla (agarres parciales, caídas, fallos). Tu tasa de éxito es la suma dividida por 20.

Diagnóstico de Modos de Falla

Mira tus grabaciones de video y categoriza las fallas. La mayoría de las fallas caen en una de tres categorías:

Calidad de los datos

Trayectoria de aproximación inconsistente: el brazo nunca se compromete completamente al agarre

La política está promediando entre múltiples estrategias de agarre en tus datos de entrenamiento. Esto sucede cuando algunas demostraciones se acercan desde la izquierda y otras desde la derecha, o cuando el tiempo de cierre del agarre es inconsistente. Solución: vuelve a grabar con una única estrategia deliberada en todas las demostraciones.

Capacidad del modelo

La trayectoria parece razonable, pero la precisión está desviada por 1-2 cm de manera consistente.

El modelo está aprendiendo el comportamiento correcto, pero carece de la capacidad para ser preciso. Esto sucede cuando el tamaño del bloque es demasiado corto (no hay suficiente horizonte de planificación) o cuando la dimensión de retroalimentación es demasiado pequeña. Solución: aumentar el tamaño del bloque a 150, reentrenar. O agregar más demostraciones diversas para regularizar la red.

Cambio de distribución.

Funciona perfectamente en algunas posiciones, falla completamente en otras.

Las posiciones de los objetos durante la evaluación están fuera de la distribución de tus datos de entrenamiento. La política no ha visto esas posiciones antes. Solución: recopilar más demostraciones con posiciones de objetos más diversas, o restringir tu evaluación a posiciones que estén bien representadas en tus datos de entrenamiento.

Unidad 5 Completa Cuando...

Has realizado 20 ensayos de evaluación (en simulación o en tu robot real) y medido una tasa de éxito. Has visto todos los videos de modos de falla e identificado si la falla principal es la calidad de los datos, la capacidad del modelo o el cambio de distribución. Tienes este diagnóstico anotado: lo usarás para guiar tu recolección de datos en la Unidad 6.

Evalúa tu política