Unidad 6: Ejecuta y Mejora Tu Política Bimanual — Camino de Aprendizaje DK1

Configuración de Inferencia para Dos Brazos

La inferencia bimanual ejecuta una única red de políticas que produce acciones para ambos brazos simultáneamente. El bucle de observación-acción se ejecuta a 50Hz — la misma frecuencia que tus datos de entrenamiento — con ambos brazos seguidores ejecutando sus respectivos bloques de acción en sincronía.

source ~/dk1-env/bin/activate

# Keep your hand near the E-stop for the first 3 evaluation episodes

python -m lerobot.scripts.eval\

# Replace XXXXX with your best checkpoint step (from Unit 5 loss curve analysis)
# --record-video saves both arm views as separate mp4 files for failure analysis

Para la primera ejecución de evaluación, permite que la política se ejecute sin interrupción a menos que una colisión física sea inminente. Las políticas bimanuales a menudo producen movimientos inesperados en los primeros 1–2 episodios a medida que se adaptan al entorno real. Los episodios 3–10 son los datos de evaluación significativos. Nota si la política alcanza consistentemente las mismas fases de la tarea (acercamiento, agarre, transferencia, colocación, hogar) incluso cuando finalmente falla — el éxito parcial es información diagnóstica.

Protocolo de Evaluación Bimanual

Utilice un protocolo estructurado. La evaluación informal — "parece que está funcionando" — no es confiable para políticas bimanuales porque los éxitos parciales son mucho más comunes y pueden enmascarar un traspaso fundamentalmente roto.

Elemento del Protocolo	Especificación Bimanual
Número de episodios	10 como mínimo; 20 para resultados de alta confianza antes de agregar más datos
Posición inicial del cubo	Posición fija, marcada con cinta — la misma que su configuración de entrenamiento de la Unidad 4
Iluminación	Debe coincidir con las condiciones de entrenamiento. Incluso abrir una ventana puede cambiar la iluminación lo suficiente como para afectar la cámara del espacio de trabajo
Lo que cuenta como éxito total	El cubo comienza en el lado derecho, termina en el lado izquierdo, ambos brazos regresan a la pose inicial, sin contacto humano durante el episodio
Lo que cuenta como éxito parcial	Se logra un agarre correcto pero falla la transferencia, o la transferencia tiene éxito pero la colocación está fuera de objetivo. Registre estos por separado.
Clasificación de fallos	Registre: (A) fallo de agarre, (B) fallo de traspaso — la transferencia de brazo a brazo se cae, (C) fallo de colocación, (D) tiempo de espera. La categoría de fallo de traspaso (B) es única para bimanual y la más informativa para la mejora.
Métrica de informe	Tasa de éxito total (episodios con las 4 fases correctas). También informe la tasa de éxito parcial. Ejemplo: "4/10 total, 7/10 alcanzó la fase de traspaso".

Modos de fallo bimanual comunes

Estos modos de fallo son distintos de los fallos de un solo brazo y requieren soluciones específicas para bimanual:

Los brazos llegan al punto de entrega de manera asíncrona: Un brazo alcanza la posición de entrega y espera; el otro llega tarde. La política no ha aprendido el tiempo relativo entre los brazos. Solución: añadir 20 demostraciones donde ambos brazos pausen explícitamente en el punto de entrega durante 1-2 segundos antes de completar la transferencia. Esto hace que el requisito de sincronización sea explícito en los datos.
Caída en la entrega — el cubo cae entre los dos brazos: La falla específica más común en bimanual. El brazo receptor cierra su agarre demasiado pronto o demasiado tarde en relación con la liberación del brazo que da. Solución: recopilar 15 demostraciones de entrega en cámara lenta específicamente a 25% de velocidad. El tiempo exagerado le da a la política una señal más clara sobre la secuencia de transición del estado del agarre.
La política converge en una estrategia de un solo brazo: La política aprende a completar la tarea solo con un brazo, ignorando las capacidades del otro brazo. Esto sucede cuando las demostraciones de un brazo son más consistentes que las del otro. Solución: revisar el error de acción de cada brazo a partir de las curvas de entrenamiento (Unidad 5) y recopilar demostraciones adicionales que apunten específicamente a las fases del brazo más débil.
Colisión entre brazos: Ambos brazos intentan ocupar la misma ubicación en el espacio de trabajo. Este es un evento de seguridad — habilitar la evitación de colisiones en el servidor de hardware DK1 (collision_avoidance: true en dk1-config.yaml) durante la evaluación. Entrenar con demostraciones que respeten consistentemente la separación segura de los brazos evitará la mayoría de las colisiones; la protección a nivel de hardware maneja los casos límite.
Desincronización de fases en la implementación: La política ejecuta las acciones correctas pero no en el orden temporal correcto — por ejemplo, el brazo derecho coloca antes de que el brazo izquierdo haya transferido. Esto es un artefacto de agrupamiento de acciones donde los límites de los grupos no se alinean con las transiciones de fase de la tarea. Solución: reducir chunk_size de 100 a 50 y volver a entrenar.

El ciclo de mejora de datos para la mejora bimanual

El mismo ciclo de mejora que funciona para políticas de un solo brazo funciona para bimanual — con una adición específica para bimanual: siempre apuntar al primero modo de falla en la secuencia de tareas. La entrega (fase B) no puede mejorarse si el agarre (fase A) sigue siendo inconsistente. Solucionar fallas en el orden de la secuencia de tareas.

Evaluar

Ejecutar 10 episodios. Clasificar cada falla por fase (A/B/C/D)

Objetivo

Identificar la primera fase de falla. Recopilar 20-30 demostraciones que cubran específicamente esa fase

Volver a entrenar

Agrega demostraciones específicas al conjunto de datos. Vuelve a entrenar desde cero o ajusta el mejor punto de control.

Evaluar

Ejecuta 10 episodios nuevamente. ¿Mejoró la tasa de éxito total? Pasa a la siguiente fase de fallo.

¿Qué sigue?

Ahora tienes un pipeline de aprendizaje bimanual funcional. La transferencia del cubo es la base: la misma arquitectura se escala a tareas significativamente más complejas.

Teleoperación a velocidad variable.

Teleoperación adaptativa a la velocidad para tareas ricas en contacto donde la retroalimentación de fuerza cambia la velocidad de movimiento óptima.

Agrega manos hábiles.

Combina los brazos DK1 con la mano Orca para destreza a nivel de dedos en tareas que requieren manipulación precisa en la mano.

Escala tu conjunto de datos.

Técnicas para escalar la recolección de datos bimanuales entre operadores, tareas y configuraciones de hardware.

Comparte tus resultados.

Publica tu tasa de éxito, conjunto de datos y política en el foro DK1. Los resultados bimanuales están entre los más valiosos que la comunidad recopila.

Unidad 6 completa cuando...

Tu DK1 completa la tarea de transferencia del cubo de forma autónoma con una tasa de éxito total de al menos 6/10 en una evaluación estructurada. Has clasificado todos los episodios de fallo por fase (A/B/C/D) e identificado qué fase es responsable de la mayoría de los fallos. Has visto los videos de fallo y puedes articular específicamente qué salió mal. Entiendes el ciclo de datos bimanuales lo suficientemente bien como para planificar tu próxima iteración de mejora.

Has construido un sistema de aprendizaje robótico bimanual funcional.

Has configurado una arquitectura de líder/seguidor, recolectado demostraciones sincronizadas de dos brazos, entrenado una política coordinada desde cero y la has desplegado en hardware real. La manipulación bimanual a este nivel es donde operan los laboratorios de investigación. La base que has construido aquí se escala a tareas de ensamblaje, cocina y tareas ricas en contacto que estaban fuera de alcance antes de que comenzaras este camino.