Plataformas robóticas

Robot ALOHA: Qué es, cómo funciona y cómo empezar

ALOHA es la plataforma de teleoperación bimanual de la Universidad de Stanford que demostró, por primera vez, que un robot podría aprender tareas de manipulación hábil con dos manos — como abrir una bolsa de papas fritas, atar un cable o cocinar — a partir de un pequeño número de demostraciones humanas. Ahora es la plataforma de investigación bimanual más referenciada en el mundo. Esta guía explica qué es ALOHA, cómo funciona y cómo comenzar a usarlo.

La historia de origen de Stanford

ALOHA — Un sistema de hardware de código abierto y bajo costo para teleoperación bimanual — fue desarrollado en el Laboratorio de Manipulación Móvil de Stanford y publicado en el artículo "Aprendiendo Manipulación Bimanual de Grano Fino con Hardware de Bajo Costo" por Tony Z. Zhao et al. en 2023. La tesis central fue provocativa: no necesitas hardware de robot costoso y propietario para realizar manipulaciones hábiles impresionantes. ALOHA utilizó cuatro brazos robóticos ViperX 300 y WidowX 250 (dos por lado, uno como líder para teleoperación y uno como seguidor) que costaron menos de $20,000 en total, combinado con el algoritmo ACT, para realizar tareas que anteriormente requerían sistemas diseñados a medida que costaban muchas veces más.

El artículo demostró 10 tareas bimanuales, incluyendo desenvolver un caramelo, insertar una batería en una ranura y enhebrar una cuerda a través de un agujero — todas con tasas de éxito superiores al 80% utilizando 50 demostraciones. Estos resultados sorprendieron a la comunidad robótica no porque las tareas fueran novedosas, sino por la eficiencia en costos y datos. ALOHA y ACT juntos establecieron un nuevo estándar para la investigación en manipulación hábil accesible y desencadenaron una ola de trabajos posteriores que continúa hoy.

El diseño de hardware de ALOHA y todo el software son completamente de código abierto. La lista de materiales, las instrucciones de ensamblaje y el código de entrenamiento de ACT están disponibles públicamente en GitHub. Esta apertura ha convertido a ALOHA en la plataforma de investigación bimanual de facto, con docenas de grupos de investigación en todo el mundo ejecutando variantes del diseño original. SVRC apoya plataformas de clase ALOHA a través de nuestro servicios de datos y programa de arrendamiento de hardware.

Arquitectura de Hardware: Configuración Bimanual Líder-Seguidor

El sistema ALOHA consiste en dos pares cinemáticos, uno para cada brazo. Cada par tiene un brazo "líder" — un brazo ligero y controlable que el operador sostiene y mueve con sus manos — y un brazo "seguidor" que refleja las posiciones de las articulaciones del líder en tiempo real. El brazo seguidor lleva el manipulador real (agarre, herramienta o efector final) e interactúa con el mundo físico. El brazo líder no tiene requisitos de carga útil de efector final porque solo necesita ser controlable y proporcionar retroalimentación de torque al operador.

La configuración bimanual — dos pares completos líder-seguidor — es lo que hace que ALOHA sea singularmente capaz para tareas diestros. Las manos humanas son bimanuales por naturaleza: una mano sostiene el objeto mientras la otra lo manipula, o ambas manos cooperan para completar una tarea que requiere dos puntos de contacto simultáneos. Los robots de un solo brazo solo pueden aproximarse a estas tareas con fijaciones complejas o secuenciación; los robots bimanuales pueden manejarlas directamente. El factor de forma de ALOHA, con ambos brazos montados en un soporte de mesa compartido, está optimizado para tareas de manipulación en la mesa donde el operador se sienta frente al sistema.

La configuración de la cámara en el artículo original de ALOHA utilizó tres cámaras: una en la parte superior (vista de pájaro del espacio de trabajo completo), una en la muñeca izquierda y una en la muñeca derecha. Las tres cámaras se utilizan como observaciones visuales para la política de ACT. Esta configuración de múltiples vistas es crítica: las cámaras de muñeca proporcionan vistas cercanas de eventos de agarre y contacto, mientras que la cámara superior proporciona contexto global para la coordinación a dos manos. Las variantes de ALOHA con una sola cámara muestran un rendimiento de política mediblemente inferior en tareas que requieren coordinación.

ACT: El Algoritmo Detrás de ALOHA

ACT (División de Acción con Transformadores) se desarrolló junto con ALOHA y es el algoritmo de aprendizaje principal para la plataforma. ACT es una política de aprendizaje por imitación basada en transformadores que predice un bloque de posiciones de articulaciones futuras — típicamente 100 pasos de tiempo a 50Hz, cubriendo 2 segundos de movimiento — en lugar de una sola acción siguiente. Esta arquitectura de división de acciones reduce sustancialmente el problema de error acumulativo de la clonación de comportamiento ingenua, donde pequeños errores de predicción en cada paso de tiempo se acumulan en grandes desviaciones de trayectoria a lo largo de una tarea.

La arquitectura de política de ACT utiliza un codificador CVAE (Autoencoder Variacional Condicional) durante el entrenamiento para capturar el estilo latente de cada demostración — esencialmente, una representación comprimida de "cómo" el humano completó la tarea, distinta de "cuál" fue el resultado de la tarea. Esto permite que la política modele la variación natural en las demostraciones humanas sin artefactos de promediado de modos. En el momento de la inferencia, solo se ejecuta el decodificador CVAE, condicionado a la observación actual y a un vector latente muestreado, para generar el bloque de acción.

Entrenar ACT en un conjunto de datos de ALOHA con 50 demostraciones por tarea toma de 2 a 4 horas en una sola GPU RTX 3090. El código de entrenamiento, publicado con el artículo original, es sencillo de ejecutar con hiperparámetros documentados para tareas estándar de ALOHA. Para tareas personalizadas, el hiperparámetro más impactante a ajustar es el tamaño del bloque (kl_weight en la configuración) — bloques más grandes mejoran la consistencia temporal a costa de la reactividad a perturbaciones inesperadas. SVRC's plataforma incluye tuberías de entrenamiento de ACT preconfiguradas para conjuntos de datos en formato ALOHA.

ALOHA Móvil: Sacando ALOHA de la Mesa

ALOHA Móvil, publicado por el mismo grupo de Stanford en 2024, extendió el concepto de ALOHA a una base móvil. La configuración del brazo bimanual se montó en una base móvil AgileX Tracer, permitiendo que el sistema navegue a diferentes ubicaciones dentro de un espacio — acercándose a una encimera de cocina, moviéndose a una mesa de comedor, navegando por un pasillo — mientras retiene los brazos de ALOHA para la manipulación. ALOHA Móvil demostró tareas como cocinar camarones en una estufa, cargar un lavavajillas y entregar un paquete — tareas que requieren tanto locomoción como manipulación diestros.

ALOHA Móvil también introdujo el concepto de teleoperación de cuerpo completo: el operador controla tanto la base móvil como los dos brazos simultáneamente, ya sea a través de interfaces de control separadas o a través de una interfaz unificada que mapea los movimientos del cuerpo del operador a la configuración corporal completa del robot. La recolección de datos para ALOHA Móvil es significativamente más compleja que la de ALOHA en la mesa porque la política debe aprender a coordinar la navegación y la manipulación, requiriendo demostraciones que cubran la variación espacial en el entorno así como la variación de objetos.

ALOHA Móvil también introdujo el co-entrenamiento: entrenar la política de ALOHA Móvil conjuntamente en demostraciones de manipulación móvil y demostraciones de manipulación ALOHA estáticas. El co-entrenamiento mejoró el rendimiento de manipulación en la plataforma móvil, sugiriendo que el conocimiento de manipulación bimanual de los datos de la mesa se transfiere de manera útil al contexto móvil. SVRC ofrece conjuntos de datos compatibles con ALOHA Móvil y puede recolectar demostraciones de manipulación móvil en nuestras instalaciones de San Francisco. Contáctanos para discutir sus requisitos de datos de ALOHA Móvil.

Diferencias Entre ALOHA, ALOHA 2 y Derivados Comerciales

ALOHA 2, publicado a finales de 2024, mejoró el original en varias dimensiones: brazos de mayor calidad con mejor repetibilidad, un sistema de montaje de cámara mejorado y un diseño de muñeca revisado que reduce la complejidad del enrutamiento de cables. El sistema eléctrico también se actualizó para usar una placa de distribución de energía dedicada en lugar de cables de alimentación en cadena, mejorando la fiabilidad durante largas sesiones de recolección de datos. ALOHA 2 mantiene plena compatibilidad de software con el original — los conjuntos de datos recolectados en uno pueden entrenar políticas evaluadas en el otro, sujeto a las habituales advertencias sobre variación de hardware.

Varios proveedores comerciales ahora venden plataformas compatibles con ALOHA — sistemas preensamblados y probados que siguen la especificación mecánica y de software de ALOHA sin requerir que el constructor obtenga componentes y ensamble los brazos por sí mismo. Estos sistemas comerciales de ALOHA cuestan más que la lista de materiales de bricolaje pero reducen sustancialmente el tiempo de configuración y el riesgo de errores de ensamblaje. El catálogo de hardware de SVRC incluye configuraciones compatibles con ALOHA; consulte el tienda para opciones y precios actuales.

Comenzando con ALOHA a través de SVRC

SVRC apoya la investigación basada en ALOHA en cada etapa. Para los equipos que recién comienzan, ofrecemos arrendamiento de la plataforma ALOHA a través de nuestro programa de arrendamiento de robots — acceda a un conjunto bimanual completo por una tarifa mensual fija sin el compromiso de capital de comprar hardware. Los sistemas arrendados llegan pre-calibrados y listos para recoger demostraciones desde el primer día.

Para la recolección de datos, nuestro servicio gestionado proporciona operadores ALOHA capacitados que pueden recoger demostraciones en nuestra instalación de San Francisco, con conjuntos de datos entregados en formato RLDS/LeRobot compatible con ACT, Diffusion Policy y OpenVLA. Nuestros operadores tienen experiencia en tareas de coordinación bimanual y siguen protocolos de calidad estructurados que producen conjuntos de datos más limpios que los que típicamente logran los investigadores primerizos. También podemos visitar su sitio para campañas de recolección de datos en el lugar si su tarea lo requiere.

Para el entrenamiento y evaluación de políticas, el plataforma SVRC proporciona tuberías de entrenamiento ACT preconfiguradas, seguimiento de experimentos y herramientas de evaluación para políticas ALOHA. Nuestro puntos de referencia incluye evaluaciones de tareas específicas de ALOHA que le permiten comparar el rendimiento de su política con implementaciones de referencia. Ya sea que esté construyendo un programa de investigación de manipulación bimanual desde cero o tratando de mejorar el rendimiento de un sistema existente, el equipo de SVRC puede ayudarle a planificar el enfoque correcto.