Unidad 0: Orientación Bimanual — Ruta de Aprendizaje DK1

Si completaste la ruta OpenArm: La mayoría de los patrones del SDK, conceptos de ROS 2 y flujos de trabajo de LeRobot son los mismos. Lo nuevo es la arquitectura de líder/seguidor, la configuración de brazos duales sincronizados y los mayores requisitos de datos para tareas bimanuales. Esta unidad cubre exactamente esas diferencias.

¿Por qué dos brazos?

Un solo brazo robótico es poderoso para tareas donde un efector final es suficiente: recoger y colocar, clasificar, inspeccionar. Pero una gran clase de tareas de manipulación en el mundo real requieren fundamentalmente dos manos — de la misma manera que los humanos usan ambas manos como algo natural. Sostener un recipiente mientras se vierte. Montar piezas que requieren una mano para estabilizar y otra para insertar. Doblar tela, pelar empaques, pasar un objeto de una mano a la otra en medio de la tarea.

Estas tareas no son solo "más difíciles" con un brazo — son arquitectónicamente incompatibles con una configuración de un solo brazo. La arquitectura bimanual del DK1 te da acceso a toda esta clase de tareas. Y dado que ambos brazos operan en un espacio de trabajo compartido con estados de articulación sincronizados, la configuración de aprendizaje por imitación — teleoperación líder/seguidor alimentando a una sola política — es más limpia de lo que podrías esperar.

El Concepto de Líder/Secundario

El DK1 utiliza un arquitectura de líder/seguidor para teleoperación. El concepto es sencillo:

Brazo líder

Lo que mueves

Un brazo controlador ligero y con retroalimentación que manipulas físicamente con tus manos. No tiene capacidad de carga útil — su único trabajo es sentir y transmitir tu movimiento intencionado a alta frecuencia.

Brazos Secundarios (×2)

Lo que ejecuta la tarea

Los dos brazos DK1 de plena potencia que reflejan los ángulos de las articulaciones del líder en tiempo real. Interactúan con el espacio de trabajo y los objetos reales. Estos son los brazos que ejecutan la política entrenada durante el despliegue.

Cuando teleoperas, mueves físicamente el brazo líder. Los brazos seguidores replican ese movimiento en milisegundos. Cuando grabas datos, los estados de las articulaciones del brazo seguidor — no los del líder — son los que se guardan. Cuando entrenas una política, estás entrenando a los brazos seguidores para reproducir los patrones de movimiento que capturó tu líder. El brazo líder se elimina por completo en el momento de la inferencia.

Esta arquitectura es más natural que la teleoperación con teclado o controlador de realidad virtual porque el mapeo del movimiento es directo: mover el líder 30° se traduce en 30° en el seguidor. La propriocepción de tu cuerpo se transfiere directamente al robot.

Lista de verificación de hardware

Verifica cada elemento a continuación antes de comenzar la Unidad 1.

Brazo seguidor DK1 ×2 — ambos brazos del kit. Verifica que ambos llegaron sin daños y que todas las articulaciones se mueven libremente cuando no están alimentados.
Brazo del controlador líder DK1 — el controlador de teleoperación más ligero y con retroceso. Debería sentirse fácil de mover a mano.
Fuentes de alimentación ×2 — uno por brazo seguidor. Incluido en el kit. Verifica que la especificación de voltaje coincida con tu toma de corriente (ver etiqueta en la fuente).
Cables USB-C ×3 — uno por brazo (ambos seguidores + líder) para la conexión inicial. Los cables más cortos (0.5–1m) son más fáciles de manejar en un espacio de trabajo bimanual.
Cámaras ×2 — una cámara de espacio de trabajo de gran angular (desde arriba o de frente) y una cámara de muñeca en el brazo seguidor principal. Una tercera cámara en el brazo secundario es opcional pero recomendada para tareas ricas en contacto.
Hardware de montaje — el DK1 requiere montaje fijo para ambos brazos seguidores. El kit incluye placas para atornillar. Se requiere una mesa rígida o banco de laboratorio — una mesa plegable introducirá vibraciones que degradan tus datos.
Espacio de trabajo bimanual — al menos 80cm × 60cm de superficie plana clara entre los dos brazos. Marca los límites de alcance del brazo con cinta durante la Unidad 1 para definir el sobre de operación seguro.

¿No tienes hardware físico? Puedes completar la mayor parte de este camino en la simulación bimanual de MuJoCo. Ver el Guía de configuración de simulación DK1 antes de la Unidad 1.

Lista de verificación de software

Ubuntu 22.04 o 24.04 — mismo requisito que OpenArm. Una VM funciona para sim; el hardware real requiere Linux nativo para un rendimiento en tiempo real del bus CAN.
Python 3.10 o superior — ejecutar python3 --version para comprobarlo.
ROS 2 Humilde o Jazzy — si completaste la ruta de OpenArm, esto ya está instalado. Ejecuta ros2 --version para comprobarlo.
SDK DK1 (separado del SDK de OpenArm) — instalación cubierta en la Unidad 2. No instales ahora — la configuración de emparejamiento debe realizarse después de que ambos brazos estén montados físicamente.
LeRobot — si lo tienes instalado desde la ruta de OpenArm, funcionará aquí. El formato del conjunto de datos bimanual utiliza la misma estructura con dos arreglos de estado de articulación. Se requiere versión ≥0.3.0 para soporte bimanual.
~25 GB de espacio libre en disco — los conjuntos de datos bimanuales son más grandes que los conjuntos de datos de un solo brazo (dos flujos de estado de articulación, dos feeds de cámara). Los puntos de control de entrenamiento añaden otros 5–10 GB.
GPU con 10 GB+ de VRAM — muy recomendado. El entrenamiento bimanual ACT en CPU es factible pero tomará de 8 a 12 horas para un buen entrenamiento. Una RTX 3080 o mejor reduce esto a menos de 2 horas.

Estimaciones de tiempo

La configuración bimanual toma más tiempo que la configuración de un solo brazo — considera el tiempo para el montaje, alineación y verificación de sincronización para cada unidad.

Unidad	Lo que haces	Tiempo
0	Esta orientación	30 min
1	Montar y cablear dos brazos, cámaras	~3 h
2	SDK, emparejamiento líder/seguidor, prueba de sincronización	~2 h
3	Primera sesión de teleoperación bimanual	~2 h
4	Grabar 100 demostraciones sincronizadas	~3 h
5	Entrenar la política bimanual de ACT	~4 h
6	Desplegar, evaluar, mejorar	~2 h
Total		~16 h 30 min

Planificar 4–5 sesiones. Las unidades 1 y 2 van juntas de forma natural (configuración de hardware + configuración de software en una sesión). Las unidades 3 y 4 son mejor hacerlas juntas una vez que seas fluido en la teleoperación bimanual. El entrenamiento de la unidad 5 puede realizarse durante la noche.

Cómo Obtener Ayuda

Verifica el verificación de finalización en la parte inferior de cualquier unidad en la que estés — define exactamente cómo se ve "completado".
Publicar en el hilo del foro DK1 — incluye tu versión de Ubuntu, versión de SDK, mensaje de error exacto y en qué unidad estás. Los problemas específicos de bimanual a menudo tienen códigos de error específicos de los brazos; incluye ambos.
Verifica el sección de solución de problemas en la Unidad 2 — cubre los errores de sincronización más comunes entre líder/seguidor.
Únete al Discordia de SVRC en #dk1-path — respuesta más rápida durante las horas diurnas de PST.

Alternativa de simulación

El camino DK1 soporta una simulación bimanual de MuJoCo que replica la arquitectura líder/seguidor, estados de articulaciones sincronizados y feeds de cámara. Puedes completar las Unidades 0 a 5 completamente en simulación. La Unidad 6 (despliegue de hardware real) requiere brazos físicos. La guía de configuración de simulación está en hardware/dk1/simulation.

Orientación completa cuando...

Has revisado cada elemento en las listas de verificación de hardware y software, entiendes el concepto de líder/seguidor y puedes explicarlo en una frase, sabes dónde pedir ayuda y has reservado tu primera sesión de 3 horas para la configuración de hardware de la Unidad 1.

Antes de Comenzar: Orientación Bimanual

¿Por qué dos brazos?

El Concepto de Líder/Secundario

Lo que mueves

Lo que ejecuta la tarea

Lista de verificación de hardware

Lista de verificación de software

Estimaciones de tiempo

Cómo Obtener Ayuda

Alternativa de simulación

Orientación completa cuando...