Configuración de Inferencia para Dos Brazos
La inferencia bimanual ejecuta una única red de políticas que produce acciones para ambos brazos simultáneamente. El bucle de observación-acción se ejecuta a 50Hz — la misma frecuencia que tus datos de entrenamiento — con ambos brazos seguidores ejecutando sus respectivos bloques de acción en sincronía.
Para la primera ejecución de evaluación, permite que la política se ejecute sin interrupción a menos que una colisión física sea inminente. Las políticas bimanuales a menudo producen movimientos inesperados en los primeros 1–2 episodios a medida que se adaptan al entorno real. Los episodios 3–10 son los datos de evaluación significativos. Nota si la política alcanza consistentemente las mismas fases de la tarea (acercamiento, agarre, transferencia, colocación, hogar) incluso cuando finalmente falla — el éxito parcial es información diagnóstica.
Protocolo de Evaluación Bimanual
Utilice un protocolo estructurado. La evaluación informal — "parece que está funcionando" — no es confiable para políticas bimanuales porque los éxitos parciales son mucho más comunes y pueden enmascarar un traspaso fundamentalmente roto.
| Elemento del Protocolo | Especificación Bimanual |
|---|---|
| Número de episodios | 10 como mínimo; 20 para resultados de alta confianza antes de agregar más datos |
| Posición inicial del cubo | Posición fija, marcada con cinta — la misma que su configuración de entrenamiento de la Unidad 4 |
| Iluminación | Debe coincidir con las condiciones de entrenamiento. Incluso abrir una ventana puede cambiar la iluminación lo suficiente como para afectar la cámara del espacio de trabajo |
| Lo que cuenta como éxito total | El cubo comienza en el lado derecho, termina en el lado izquierdo, ambos brazos regresan a la pose inicial, sin contacto humano durante el episodio |
| Lo que cuenta como éxito parcial | Se logra un agarre correcto pero falla la transferencia, o la transferencia tiene éxito pero la colocación está fuera de objetivo. Registre estos por separado. |
| Clasificación de fallos | Registre: (A) fallo de agarre, (B) fallo de traspaso — la transferencia de brazo a brazo se cae, (C) fallo de colocación, (D) tiempo de espera. La categoría de fallo de traspaso (B) es única para bimanual y la más informativa para la mejora. |
| Métrica de informe | Tasa de éxito total (episodios con las 4 fases correctas). También informe la tasa de éxito parcial. Ejemplo: "4/10 total, 7/10 alcanzó la fase de traspaso". |
Modos de fallo bimanual comunes
Estos modos de fallo son distintos de los fallos de un solo brazo y requieren soluciones específicas para bimanual:
- Los brazos llegan al punto de entrega de manera asíncrona: Un brazo alcanza la posición de entrega y espera; el otro llega tarde. La política no ha aprendido el tiempo relativo entre los brazos. Solución: añadir 20 demostraciones donde ambos brazos pausen explícitamente en el punto de entrega durante 1-2 segundos antes de completar la transferencia. Esto hace que el requisito de sincronización sea explícito en los datos.
- Caída en la entrega — el cubo cae entre los dos brazos: La falla específica más común en bimanual. El brazo receptor cierra su agarre demasiado pronto o demasiado tarde en relación con la liberación del brazo que da. Solución: recopilar 15 demostraciones de entrega en cámara lenta específicamente a 25% de velocidad. El tiempo exagerado le da a la política una señal más clara sobre la secuencia de transición del estado del agarre.
- La política converge en una estrategia de un solo brazo: La política aprende a completar la tarea solo con un brazo, ignorando las capacidades del otro brazo. Esto sucede cuando las demostraciones de un brazo son más consistentes que las del otro. Solución: revisar el error de acción de cada brazo a partir de las curvas de entrenamiento (Unidad 5) y recopilar demostraciones adicionales que apunten específicamente a las fases del brazo más débil.
- Colisión entre brazos: Ambos brazos intentan ocupar la misma ubicación en el espacio de trabajo. Este es un evento de seguridad — habilitar la evitación de colisiones en el servidor de hardware DK1 (
collision_avoidance: trueen dk1-config.yaml) durante la evaluación. Entrenar con demostraciones que respeten consistentemente la separación segura de los brazos evitará la mayoría de las colisiones; la protección a nivel de hardware maneja los casos límite. - Desincronización de fases en la implementación: La política ejecuta las acciones correctas pero no en el orden temporal correcto — por ejemplo, el brazo derecho coloca antes de que el brazo izquierdo haya transferido. Esto es un artefacto de agrupamiento de acciones donde los límites de los grupos no se alinean con las transiciones de fase de la tarea. Solución: reducir
chunk_sizede 100 a 50 y volver a entrenar.
El ciclo de mejora de datos para la mejora bimanual
El mismo ciclo de mejora que funciona para políticas de un solo brazo funciona para bimanual — con una adición específica para bimanual: siempre apuntar al primero modo de falla en la secuencia de tareas. La entrega (fase B) no puede mejorarse si el agarre (fase A) sigue siendo inconsistente. Solucionar fallas en el orden de la secuencia de tareas.
Evaluar
Ejecutar 10 episodios. Clasificar cada falla por fase (A/B/C/D)
Objetivo
Identificar la primera fase de falla. Recopilar 20-30 demostraciones que cubran específicamente esa fase
Volver a entrenar
Agrega demostraciones específicas al conjunto de datos. Vuelve a entrenar desde cero o ajusta el mejor punto de control.
Evaluar
Ejecuta 10 episodios nuevamente. ¿Mejoró la tasa de éxito total? Pasa a la siguiente fase de fallo.
¿Qué sigue?
Ahora tienes un pipeline de aprendizaje bimanual funcional. La transferencia del cubo es la base: la misma arquitectura se escala a tareas significativamente más complejas.
Unidad 6 completa cuando...
Tu DK1 completa la tarea de transferencia del cubo de forma autónoma con una tasa de éxito total de al menos 6/10 en una evaluación estructurada. Has clasificado todos los episodios de fallo por fase (A/B/C/D) e identificado qué fase es responsable de la mayoría de los fallos. Has visto los videos de fallo y puedes articular específicamente qué salió mal. Entiendes el ciclo de datos bimanuales lo suficientemente bien como para planificar tu próxima iteración de mejora.