Ejecución de Inferencia en el Brazo Real
El despliegue significa ejecutar tu punto de control entrenado en tiempo real, alimentando observaciones de cámara y de articulaciones en vivo a la red y ejecutando las acciones de salida en el brazo físico. El script de inferencia maneja el bucle de observación-acción a 50Hz.
Para la primera ejecución de despliegue, mantén tu mano cerca del E-stop físico. Una política recién desplegada puede hacer movimientos inesperados ocasionalmente mientras se adapta al entorno de hardware real. Esto es normal durante los primeros 2–3 episodios. Después de eso, el comportamiento debería estabilizarse.
Para orientación integral sobre despliegue y producción, incluyendo envolturas de seguridad y temporizadores de vigilancia, consulta el Guía de Producción de OpenArm.
Metodología de Evaluación
No evalúes tu política de manera informal. Usa un protocolo estructurado: es la única forma de saber si un cambio que haces (más datos, diferente punto de control, diferente enmarcado de tarea) realmente mejoró el rendimiento:
| Elemento del Protocolo | Especificación |
|---|---|
| Número de episodios por evaluación | 10 como mínimo, 20 para resultados de alta confianza |
| Posición inicial del objeto | Fija. Usa marcas de cinta. Misma posición en cada episodio. |
| Tipo de objeto | Mismo objeto que en el entrenamiento. La iluminación debe coincidir con las condiciones de entrenamiento. |
| Lo que cuenta como éxito | Objeto colocado dentro de 3 cm del objetivo. El brazo regresa a casa. Sin intervención humana durante el episodio. |
| Clasificación de fallos | Registra el tipo de fallo: agarre fallido / objeto caído / objetivo incorrecto / tiempo de espera. Esto te indica qué arreglar. |
| Métrica de informe | Tasa de éxito = episodios exitosos / total de episodios. Informe con el conteo de episodios (por ejemplo, "7/10 = 70%"). |
El ciclo de datos: Cómo mejorar
Una política que tiene éxito 7 de 10 veces es un buen comienzo, pero el camino hacia 9 de 10 o más es a través del ciclo de datos. Este es el bucle central del aprendizaje de robots en producción:
Recopilar
Grabe demostraciones, incluidos los casos de fallo con los que su política actual tiene dificultades.
Entrenar
Reentrene (o ajuste fino) en su conjunto de datos ampliado con las nuevas demostraciones añadidas.
Evaluar
Ejecute el protocolo de evaluación estructurada. ¿Mejoró la tasa de éxito? ¿Qué modos de fallo permanecen?
Analizar
Mire los videos de fallo. Identifique el estado específico donde la política falla. Recoja datos específicos allí.
La clave del ciclo: los datos específicos superan a los datos aleatoriosEn lugar de grabar 50 demostraciones aleatorias más, mire sus videos de fallo e identifique el momento exacto en que las cosas salen mal. Grabe 20 demostraciones que cubran específicamente ese estado difícil (por ejemplo, el agarre en el borde del espacio de trabajo, o el objeto en un ángulo inusual). Su tasa de éxito mejorará más rápido con 20 demostraciones específicas que con 50 aleatorias.
Modos de fallo comunes y cómo solucionarlos
- El brazo se pasa de la posición de agarre: Los bloques de acción de la política son demasiado grandes o sus datos tenían alta variación de velocidad. Grabe 10 demostraciones más a baja velocidad cerca del punto de agarre. O reduzca
chunk_sizede 100 a 50 en la configuración de entrenamiento. - El brazo tiene éxito con el objeto de entrenamiento pero falla con objetos ligeramente diferentes: Sus datos de entrenamiento carecían de diversidad en la posición del objeto. Grabe 20 demostraciones con el objeto en 5 posiciones diferentes dentro de un radio de 10 cm. Esto enseña a la política a generalizar.
- La política se congela o produce movimientos repetidos: El estilo de variable CVAE se está colapsando. Esto a menudo significa que su conjunto de datos tiene demasiada variación: el modelo no puede encontrar un estilo consistente. Verifique si hay demostraciones mixtas (diferentes operadores, diferentes enmarcaciones de tareas) y limpie su conjunto de datos.
Unidad 6 completa cuando...
Su brazo completa la tarea de recoger y colocar de forma autónoma 7 de 10 veces en una ejecución de evaluación estructurada. Ha visto los 3 videos de fallo e identificado qué salió mal. Entiende el ciclo de datos lo suficientemente bien como para planificar su próxima iteración de mejora. Este es el final del camino estructurado, pero es el comienzo de su práctica de aprendizaje de robots.
¿Qué sigue?
Tienes la base. Aquí está a dónde ir desde aquí: