Unidad 6: Desplegar y Mejorar — Camino de Aprendizaje OpenArm

Ejecución de Inferencia en el Brazo Real

El despliegue significa ejecutar tu punto de control entrenado en tiempo real, alimentando observaciones de cámara y de articulaciones en vivo a la red y ejecutando las acciones de salida en el brazo físico. El script de inferencia maneja el bucle de observación-acción a 50Hz.

source ~/openarm-env/bin/activate

# Make sure ROS 2 is running (real hardware mode, from Unit 1)

python -m lerobot.scripts.eval\

# Replace XXXXX with your best checkpoint step number from Unit 5
# --record-video saves each episode as an mp4 for review

Para la primera ejecución de despliegue, mantén tu mano cerca del E-stop físico. Una política recién desplegada puede hacer movimientos inesperados ocasionalmente mientras se adapta al entorno de hardware real. Esto es normal durante los primeros 2–3 episodios. Después de eso, el comportamiento debería estabilizarse.

Para orientación integral sobre despliegue y producción, incluyendo envolturas de seguridad y temporizadores de vigilancia, consulta el Guía de Producción de OpenArm.

Metodología de Evaluación

No evalúes tu política de manera informal. Usa un protocolo estructurado: es la única forma de saber si un cambio que haces (más datos, diferente punto de control, diferente enmarcado de tarea) realmente mejoró el rendimiento:

Elemento del Protocolo	Especificación
Número de episodios por evaluación	10 como mínimo, 20 para resultados de alta confianza
Posición inicial del objeto	Fija. Usa marcas de cinta. Misma posición en cada episodio.
Tipo de objeto	Mismo objeto que en el entrenamiento. La iluminación debe coincidir con las condiciones de entrenamiento.
Lo que cuenta como éxito	Objeto colocado dentro de 3 cm del objetivo. El brazo regresa a casa. Sin intervención humana durante el episodio.
Clasificación de fallos	Registra el tipo de fallo: agarre fallido / objeto caído / objetivo incorrecto / tiempo de espera. Esto te indica qué arreglar.
Métrica de informe	Tasa de éxito = episodios exitosos / total de episodios. Informe con el conteo de episodios (por ejemplo, "7/10 = 70%").

El ciclo de datos: Cómo mejorar

Una política que tiene éxito 7 de 10 veces es un buen comienzo, pero el camino hacia 9 de 10 o más es a través del ciclo de datos. Este es el bucle central del aprendizaje de robots en producción:

Recopilar

Grabe demostraciones, incluidos los casos de fallo con los que su política actual tiene dificultades.

Entrenar

Reentrene (o ajuste fino) en su conjunto de datos ampliado con las nuevas demostraciones añadidas.

Evaluar

Ejecute el protocolo de evaluación estructurada. ¿Mejoró la tasa de éxito? ¿Qué modos de fallo permanecen?

Analizar

Mire los videos de fallo. Identifique el estado específico donde la política falla. Recoja datos específicos allí.

La clave del ciclo: los datos específicos superan a los datos aleatoriosEn lugar de grabar 50 demostraciones aleatorias más, mire sus videos de fallo e identifique el momento exacto en que las cosas salen mal. Grabe 20 demostraciones que cubran específicamente ese estado difícil (por ejemplo, el agarre en el borde del espacio de trabajo, o el objeto en un ángulo inusual). Su tasa de éxito mejorará más rápido con 20 demostraciones específicas que con 50 aleatorias.

Modos de fallo comunes y cómo solucionarlos

El brazo se pasa de la posición de agarre: Los bloques de acción de la política son demasiado grandes o sus datos tenían alta variación de velocidad. Grabe 10 demostraciones más a baja velocidad cerca del punto de agarre. O reduzca chunk_size de 100 a 50 en la configuración de entrenamiento.
El brazo tiene éxito con el objeto de entrenamiento pero falla con objetos ligeramente diferentes: Sus datos de entrenamiento carecían de diversidad en la posición del objeto. Grabe 20 demostraciones con el objeto en 5 posiciones diferentes dentro de un radio de 10 cm. Esto enseña a la política a generalizar.
La política se congela o produce movimientos repetidos: El estilo de variable CVAE se está colapsando. Esto a menudo significa que su conjunto de datos tiene demasiada variación: el modelo no puede encontrar un estilo consistente. Verifique si hay demostraciones mixtas (diferentes operadores, diferentes enmarcaciones de tareas) y limpie su conjunto de datos.

Unidad 6 completa cuando...

Su brazo completa la tarea de recoger y colocar de forma autónoma 7 de 10 veces en una ejecución de evaluación estructurada. Ha visto los 3 videos de fallo e identificado qué salió mal. Entiende el ciclo de datos lo suficientemente bien como para planificar su próxima iteración de mejora. Este es el final del camino estructurado, pero es el comienzo de su práctica de aprendizaje de robots.

¿Qué sigue?

Tienes la base. Aquí está a dónde ir desde aquí:

Despliega y Mejora

Ejecución de Inferencia en el Brazo Real

Metodología de Evaluación

El ciclo de datos: Cómo mejorar

Recopilar

Entrenar

Evaluar

Analizar

Modos de fallo comunes y cómo solucionarlos

Unidad 6 completa cuando...

Lo hiciste.

¿Qué sigue?

Guía de Producción de OpenArm

Profundiza: Política de Difusión

Kit Bimanual DK1

Comparte tus resultados.