Plateformes robotisées

Robot ALOHA : qu'est-ce que c'est, comment ça marche et comment démarrer

ALOHA est la plate-forme de téléopération bimanuelle de l'Université de Stanford qui a démontré, pour la première fois, qu'un robot pouvait apprendre des tâches de manipulation adroites à deux mains - comme ouvrir un sac de chips, attacher un câble ou cuisiner - à partir d'un petit nombre de démonstrations humaines. Il s’agit aujourd’hui de la plateforme de recherche bimanuelle la plus référencée au monde. Ce guide explique ce qu'est ALOHA, comment il fonctionne et comment commencer à l'utiliser.

L'histoire d'origine de Stanford

ALOHA — Un système matériel open source à faible coût pour la téléopération bimanuelle — a été développé au laboratoire de manipulation mobile de Stanford et publié dans l'article « Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware » de Tony Z. Zhao et al. en 2023. La thèse centrale était provocatrice : vous n’avez pas besoin de matériel robotique exclusif et coûteux pour effectuer des manipulations adroites impressionnantes. ALOHA a utilisé quatre bras robotiques ViperX 300 et WidowX 250 (deux de chaque côté, un comme leader pour la téléopération et un comme suiveur) coûtant au total moins de 20 000 $, combinés à l'algorithme ACT, pour effectuer des tâches qui nécessitaient auparavant des systèmes personnalisés coûtant plusieurs fois plus.

L'article présentait 10 tâches bimanuelles, notamment déballer un bonbon, insérer une pile dans une fente et enfiler une corde dans un trou, le tout avec des taux de réussite supérieurs à 80 % à l'aide de 50 démonstrations. Ces résultats ont choqué la communauté robotique, non pas parce que les tâches étaient nouvelles, mais en raison du coût et de l'efficacité des données. ALOHA et ACT ont établi ensemble une nouvelle référence en matière de recherche accessible sur la manipulation adroite et ont déclenché une vague de travaux de suivi qui se poursuivent aujourd'hui.

La conception matérielle d'ALOHA et tous les logiciels sont entièrement open source. La nomenclature, les instructions d'assemblage et le code de formation ACT sont accessibles au public sur GitHub. Cette ouverture a fait d'ALOHA la plateforme de recherche bimanuelle standard de facto, avec des dizaines de groupes de recherche dans le monde entier exécutant des variantes de la conception originale. SVRC prend en charge les plates-formes de classe ALOHA via notre services de données et programme de location de matériel.

Architecture matérielle : configuration bimanuelle leader-suiveur

Le système ALOHA se compose de deux paires cinématiques, une pour chaque bras. Chaque paire dispose d'un bras « leader » – un bras léger pouvant être dirigé vers l'arrière que l'opérateur tient et déplace avec ses mains – et d'un bras « suiveur » qui reflète les positions articulaires du leader en temps réel. Le bras suiveur porte le manipulateur réel (pince, outil ou effecteur final) et interagit avec le monde physique. Le bras de guidage n'a aucune exigence de charge utile d'effecteur final, car il doit uniquement pouvoir être piloté en arrière et fournir un retour de couple à l'opérateur.

La configuration bimanuelle – deux paires complètes leader-suiveur – est ce qui rend ALOHA particulièrement capable d’effectuer des tâches adroites. Les mains humaines sont par nature bimanuelles : une main tient l’objet pendant que l’autre le manipule, ou les deux mains coopèrent pour accomplir une tâche qui nécessite deux points de contact simultanés. Les robots à un seul bras ne peuvent se rapprocher de ces tâches qu'avec des montages ou un séquençage complexes ; les robots bimanuels peuvent les manipuler directement. Le facteur de forme ALOHA, avec les deux bras montés sur une table commune, est optimisé pour les tâches de manipulation sur table où l'opérateur est assis devant le système.

La configuration de la caméra dans l'article original d'ALOHA utilisait trois caméras : une au plafond (vue à vol d'oiseau de tout l'espace de travail), une sur le poignet gauche et une sur le poignet droit. Les trois caméras sont utilisées comme observations visuelles pour la politique ACT. Cette configuration multi-vues est essentielle : les caméras au poignet fournissent des vues rapprochées des événements de préhension et de contact, tandis que la caméra aérienne fournit un contexte global pour la coordination à deux mains. Les variantes ALOHA à caméra unique affichent des performances politiques sensiblement inférieures sur les tâches nécessitant beaucoup de coordination.

ACT : l'algorithme derrière ALOHA

ACT (Action Chunking with Transformers) a été développé aux côtés d'ALOHA et est le principal algorithme d'apprentissage de la plateforme. ACT est une politique d'apprentissage par imitation basée sur un transformateur qui prédit une partie des futures positions articulaires – généralement 100 pas de temps à 50 Hz, couvrant 2 secondes de mouvement – plutôt qu'une seule action suivante. Cette architecture de segmentation des actions réduit considérablement le problème d’erreurs cumulatives du clonage comportemental naïf, où de petites erreurs de prédiction à chaque pas de temps s’accumulent en de grands écarts de trajectoire au cours d’une tâche.

L'architecture politique ACT utilise un encodeur CVAE (Conditional Variational Autoencoder) pendant la formation pour capturer le style latent de chaque démonstration - essentiellement, une représentation compressée de « comment » l'humain a accompli la tâche, distincte de « quel » était le résultat de la tâche. Cela permet à la politique de modéliser la variation naturelle des manifestations humaines sans artefacts de moyenne modale. Au moment de l'inférence, seul le décodeur CVAE s'exécute, en fonction de l'observation actuelle et d'un vecteur latent échantillonné, pour générer le morceau d'action.

La formation ACT sur un ensemble de données ALOHA avec 50 démonstrations par tâche prend 2 à 4 heures sur un seul GPU RTX 3090. Le code de formation, publié avec l'article original, est simple à exécuter avec des hyperparamètres documentés pour les tâches ALOHA standard. Pour les tâches personnalisées, l'hyperparamètre le plus important à régler est la taille du bloc (kl_weight dans la configuration) : des blocs plus gros améliorent la cohérence temporelle au détriment de la réactivité aux perturbations inattendues. Les SVRC plate-forme comprend des pipelines de formation ACT préconfigurés pour les ensembles de données au format ALOHA.

ALOHA mobile : retirer ALOHA de la table

Mobile ALOHA, publié par le même groupe de Stanford en 2024, a étendu le concept ALOHA à une base mobile. La configuration du bras bimanuel a été montée sur une base mobile AgileX Tracer, permettant au système de naviguer vers différents endroits dans un espace – s'approcher d'un comptoir de cuisine, se déplacer vers une table à manger, naviguer dans un couloir – tout en conservant les bras ALOHA pour la manipulation. Mobile ALOHA a démontré des tâches telles que la cuisson des crevettes sur une cuisinière, le chargement d'un lave-vaisselle et la livraison d'un colis – des tâches qui nécessitent à la fois de la locomotion et une manipulation adroite.

Mobile ALOHA a introduit le concept de téléopération corps entier : l'opérateur contrôle simultanément la base mobile et les deux bras, soit via des interfaces de contrôle séparées, soit via une interface unifiée qui mappe les mouvements du corps de l'opérateur à la configuration du corps entier du robot. La collecte de données pour Mobile ALOHA est nettement plus complexe que pour ALOHA sur table, car la politique doit apprendre à coordonner la navigation et la manipulation, ce qui nécessite des démonstrations couvrant la variation spatiale de l'environnement ainsi que la variation des objets.

Mobile ALOHA a également mis en place des co-formations : former la politique Mobile ALOHA conjointement sur des démonstrations de manipulation mobile et des démonstrations statiques de manipulation ALOHA. La co-formation a amélioré les performances de manipulation sur la plate-forme mobile, suggérant que les connaissances en manipulation bimanuelle issues des données sur table sont transférées utilement vers le contexte mobile. SVRC propose des ensembles de données mobiles compatibles ALOHA et peut collecter des démonstrations de manipulation mobile dans nos installations de San Francisco. Contactez-nous pour discuter de vos besoins en matière de données Mobile ALOHA.

Différences entre ALOHA, ALOHA 2 et les dérivés commerciaux

ALOHA 2, publié fin 2024, a amélioré l'original dans plusieurs dimensions : des bras de meilleure qualité avec une meilleure répétabilité, un système de montage de caméra amélioré et une conception de poignet révisée qui réduit la complexité du routage des câbles. Le système électrique a également été mis à jour pour utiliser un tableau de distribution d'énergie dédié plutôt que des câbles d'alimentation en série, améliorant ainsi la fiabilité lors des longues sessions de collecte de données. ALOHA 2 maintient une compatibilité logicielle totale avec l'original : les ensembles de données collectés sur l'un peuvent former des politiques évaluées sur l'autre, sous réserve des mises en garde habituelles concernant les variations matérielles.

Plusieurs fournisseurs commerciaux vendent désormais des plates-formes compatibles ALOHA – des systèmes pré-assemblés et testés qui suivent les spécifications mécaniques et logicielles ALOHA sans obliger le constructeur à se procurer des composants et à assembler les bras lui-même. Ces systèmes commerciaux ALOHA coûtent plus cher que la nomenclature de bricolage, mais réduisent considérablement le temps d'installation et le risque d'erreurs d'assemblage. Le catalogue matériel de SVRC comprend des configurations compatibles ALOHA ; voir le magasin pour les options et les prix actuels.

Premiers pas avec ALOHA via SVRC

SVRC soutient la recherche basée sur ALOHA à chaque étape. Pour les équipes qui débutent, nous proposons la location de la plateforme ALOHA via notre programme de location de robots — accédez à une configuration bimanuelle complète pour un tarif mensuel fixe sans engagement en capital lié à l'achat de matériel. Les systèmes loués arrivent précalibrés et prêts à recueillir des démonstrations dès le premier jour.

Pour la collecte de données, notre service géré fournit des opérateurs ALOHA formés qui peuvent effectuer des démonstrations dans nos installations de San Francisco, avec des ensembles de données livrés au format RLDS/LeRobot compatibles avec les pipelines de formation ACT, Diffusion Policy et OpenVLA. Nos opérateurs sont expérimentés dans les tâches de coordination bimanuelles et suivent des protocoles de qualité structurés qui produisent des ensembles de données plus propres que ceux obtenus habituellement par les chercheurs débutants. Nous pouvons également visiter votre site pour des campagnes de collecte de données sur place si votre tâche l'exige.

Pour la formation et l'évaluation des politiques, le Plateforme SVRC fournit des pipelines de formation ACT préconfigurés, un suivi des expériences et des outils d'évaluation pour les politiques ALOHA. Notre repères incluez des évaluations de tâches spécifiques à ALOHA qui vous permettent de comparer les performances de vos politiques par rapport aux implémentations de référence. Que vous construisiez un programme de recherche sur la manipulation bimanuelle à partir de zéro ou que vous essayiez d'améliorer les performances d'un système existant, L'équipe du SVRC peut vous aider à planifier la bonne approche.