Ejecución de Inferencia en el Brazo Real

El despliegue significa ejecutar tu punto de control entrenado en tiempo real, alimentando observaciones de cámara y de articulaciones en vivo a la red y ejecutando las acciones de salida en el brazo físico. El script de inferencia maneja el bucle de observación-acción a 50Hz.

source ~/openarm-env/bin/activate # Make sure ROS 2 is running (real hardware mode, from Unit 1) python -m lerobot.scripts.eval\ # Replace XXXXX with your best checkpoint step number from Unit 5 # --record-video saves each episode as an mp4 for review

Para la primera ejecución de despliegue, mantén tu mano cerca del E-stop físico. Una política recién desplegada puede hacer movimientos inesperados ocasionalmente mientras se adapta al entorno de hardware real. Esto es normal durante los primeros 2–3 episodios. Después de eso, el comportamiento debería estabilizarse.

Para orientación integral sobre despliegue y producción, incluyendo envolturas de seguridad y temporizadores de vigilancia, consulta el Guía de Producción de OpenArm.

Metodología de Evaluación

No evalúes tu política de manera informal. Usa un protocolo estructurado: es la única forma de saber si un cambio que haces (más datos, diferente punto de control, diferente enmarcado de tarea) realmente mejoró el rendimiento:

Elemento del Protocolo Especificación
Número de episodios por evaluación10 como mínimo, 20 para resultados de alta confianza
Posición inicial del objetoFija. Usa marcas de cinta. Misma posición en cada episodio.
Tipo de objetoMismo objeto que en el entrenamiento. La iluminación debe coincidir con las condiciones de entrenamiento.
Lo que cuenta como éxitoObjeto colocado dentro de 3 cm del objetivo. El brazo regresa a casa. Sin intervención humana durante el episodio.
Clasificación de fallosRegistra el tipo de fallo: agarre fallido / objeto caído / objetivo incorrecto / tiempo de espera. Esto te indica qué arreglar.
Métrica de informeTasa de éxito = episodios exitosos / total de episodios. Informe con el conteo de episodios (por ejemplo, "7/10 = 70%").

El ciclo de datos: Cómo mejorar

Una política que tiene éxito 7 de 10 veces es un buen comienzo, pero el camino hacia 9 de 10 o más es a través del ciclo de datos. Este es el bucle central del aprendizaje de robots en producción:

1

Recopilar

Grabe demostraciones, incluidos los casos de fallo con los que su política actual tiene dificultades.

2

Entrenar

Reentrene (o ajuste fino) en su conjunto de datos ampliado con las nuevas demostraciones añadidas.

3

Evaluar

Ejecute el protocolo de evaluación estructurada. ¿Mejoró la tasa de éxito? ¿Qué modos de fallo permanecen?

4

Analizar

Mire los videos de fallo. Identifique el estado específico donde la política falla. Recoja datos específicos allí.

La clave del ciclo: los datos específicos superan a los datos aleatoriosEn lugar de grabar 50 demostraciones aleatorias más, mire sus videos de fallo e identifique el momento exacto en que las cosas salen mal. Grabe 20 demostraciones que cubran específicamente ese estado difícil (por ejemplo, el agarre en el borde del espacio de trabajo, o el objeto en un ángulo inusual). Su tasa de éxito mejorará más rápido con 20 demostraciones específicas que con 50 aleatorias.

Modos de fallo comunes y cómo solucionarlos

  • El brazo se pasa de la posición de agarre: Los bloques de acción de la política son demasiado grandes o sus datos tenían alta variación de velocidad. Grabe 10 demostraciones más a baja velocidad cerca del punto de agarre. O reduzca chunk_size de 100 a 50 en la configuración de entrenamiento.
  • El brazo tiene éxito con el objeto de entrenamiento pero falla con objetos ligeramente diferentes: Sus datos de entrenamiento carecían de diversidad en la posición del objeto. Grabe 20 demostraciones con el objeto en 5 posiciones diferentes dentro de un radio de 10 cm. Esto enseña a la política a generalizar.
  • La política se congela o produce movimientos repetidos: El estilo de variable CVAE se está colapsando. Esto a menudo significa que su conjunto de datos tiene demasiada variación: el modelo no puede encontrar un estilo consistente. Verifique si hay demostraciones mixtas (diferentes operadores, diferentes enmarcaciones de tareas) y limpie su conjunto de datos.

Unidad 6 completa cuando...

Su brazo completa la tarea de recoger y colocar de forma autónoma 7 de 10 veces en una ejecución de evaluación estructurada. Ha visto los 3 videos de fallo e identificado qué salió mal. Entiende el ciclo de datos lo suficientemente bien como para planificar su próxima iteración de mejora. Este es el final del camino estructurado, pero es el comienzo de su práctica de aprendizaje de robots.

Lo hiciste.

Has pasado de desempaquetar un robot a entrenar y desplegar una política de aprendizaje por imitación real. Eso te coloca por delante del 99% de las personas que alguna vez han tocado un brazo robótico. Lo que construiste aquí — la configuración de teleoperación, la canalización de datos, el flujo de trabajo de entrenamiento — se escala a cualquier tarea y cualquier hardware.

¿Qué sigue?

Tienes la base. Aquí está a dónde ir desde aquí: