Guide de configuration

Guide de configuration mobile ALOHA : matériel, logiciel et première démo

Mobile ALOHA est l’une des plateformes de manipulation bimanuelle les plus influentes issues de la recherche universitaire. Pour le faire fonctionner de bout en bout (matériel assemblé, bras calibrés, pile logicielle en direct et première démonstration enregistrée), il faut accorder une attention particulière à chaque couche du système.

Présentation de l'assemblage du matériel

Un système mobile ALOHA se compose d'une base mobile à roues (généralement un AgileX Tracer ou une plate-forme à entraînement différentiel équivalent) avec deux ViperX 300 ou des bras similaires à 6 DOF montés sur un châssis surélevé. La configuration bimanuelle nécessite des paires correspondantes de bras leader et suiveur : les bras leader sont plus légers, pilotables vers l'arrière et tenus par l'opérateur humain pendant la téléopération ; les bras suiveurs sont les bras du robot qui reflètent les mouvements du leader en temps réel.

L'assemblage commence par le montage des bras suiveurs sur le châssis à la hauteur et au décalage latéral corrects pour correspondre à l'ergonomie du bras leader. Une inadéquation entre la géométrie du leader et celle du suiveur est une source courante de problèmes de qualité de contrôle. La pile de caméras – généralement une caméra montée au poignet sur chaque bras suiveur plus une ou deux caméras aériennes – doit être installée et sécurisée avant le début de tout étalonnage logiciel. La gestion des câbles est plus importante qu'elle n'en a l'air : des câbles lâches interrompent les épisodes et génèrent de mauvaises données.

Calibrage leader-suiveur

L'étalonnage est l'étape que la plupart des équipes précipitent et que la plupart des équipes regrettent. Les bras leader et suiveur doivent être dans des positions conjointes zéro avant d'enregistrer un seul épisode. La plupart des configurations basées sur ViperX sont livrées avec des appareils d'étalonnage physique : utilisez-les. Après la mise à zéro mécanique, l'étalonnage logiciel capture le décalage commun entre le leader et le suiveur à la pose zéro et le stocke sous forme de correction de biais appliquée en temps réel pendant la téléopération.

Testez la qualité de l’étalonnage en commandant lentement les bras leaders dans leur espace de travail et en observant la trajectoire des bras suiveurs. Tout décalage persistant dans l’espace articulaire, dérive à des angles articulaires spécifiques ou réponse asymétrique entre la gauche et la droite indique une erreur d’étalonnage qui dégradera votre ensemble de données. Ré-étalonnez avant de commencer toute campagne de collecte de données et revérifiez l'étalonnage après avoir expédié le système ou effectué des réglages mécaniques.

Pile logicielle : ACT et LeRobot

L'article original de Mobile ALOHA utilisait la politique ACT (Action Chunking with Transformers) formée sur des données de démonstration. La pile logicielle comprend trois couches : une couche de contrôle de bas niveau exécutée sur le calcul intégré du robot, une couche d'enregistrement de téléopération qui capture les états communs et les images de caméra de manière synchrone, et une couche de formation dans laquelle ACT ou une autre politique est formée sur l'ensemble de données collecté.

LeRobot de Hugging Face est devenu le framework open source standard pour ce flux de travail. Il fournit un format de données unifié, des scripts d'enregistrement pour le matériel de style ALOHA et des pipelines de formation pour ACT, Diffusion Policy et TDMPC. Les SVRC plateforme de données exporte des ensembles de données au format compatible LeRobot, ce qui facilite la formation sur les données collectées par SVRC ou le téléchargement de vos propres démonstrations pour le stockage et la gestion des versions.

Enregistrement de votre première session de collecte de données

Avant l’enregistrement, définissez précisément la tâche. « Ramasser la tasse » est trop vague : précisez l'emplacement de départ, l'orientation et l'emplacement cible de la tasse. La cohérence dans la configuration des tâches est ce qui rend les ensembles de données de démonstration faciles à apprendre. Préparez 3 à 5 procédures de réinitialisation pour ramener rapidement l'espace de travail à son état de départ entre les épisodes.

Pour une première session, visez 50 démonstrations réussies d’une tâche unique et clairement définie. Enregistrez à 30 Hz ou plus. Annotez chaque épisode avec un indicateur de réussite immédiatement après l’enregistrement – ne laissez pas d’annotation pour plus tard. SVRC recommande d'enregistrer dans au moins deux conditions d'éclairage différentes et avec des variations mineures dans le placement des objets pour intégrer la diversité dès le départ. Le Plateforme de services de données SVRC fournit un navigateur d'épisodes et des outils d'annotation pour rationaliser ce flux de travail.

Problèmes courants et comment les résoudre

Les problèmes les plus fréquents avec les nouvelles configurations Mobile ALOHA se répartissent en quatre catégories. Premièrement, le décalage leader-suiveur : généralement causé par la latence du réseau sur la boucle de contrôle : assurez-vous que le leader et le suiveur sont sur la même machine locale ou connectés via une liaison Ethernet dédiée, et non via WiFi. Deuxièmement, la dérive de synchronisation des caméras : si les caméras de poignet et aériennes ne sont pas synchronisées matériellement, utilisez un alignement basé sur l'horodatage pendant le chargement des données plutôt que l'alignement de l'index d'images. Troisièmement, collision des bras lors de tâches bimanuelles : ajoutez des limites d'articulations souples et des maillages de collision dans l'URDF avant un entraînement intensif. Quatrièmement, le mouvement de la base interfère avec les démonstrations des bras : lors de la collecte de données de manipulation uniquement, engagez le verrouillage de la base pour éviter toute dérive.

Prochaines étapes après votre première démo

Une fois que vous disposez d'un ensemble de données propre de 50 épisodes, utilisez le pipeline de formation LeRobot pour former une politique ACT. Attendez-vous à des taux de réussite à la première tentative de 40 à 60 % sur une tâche bien définie avec des données propres : c'est normal et s'améliore rapidement avec davantage de démonstrations et de diversité de données. À mesure que vous évoluez, les SVRC services de collecte de données peut augmenter votre ensemble de données avec des épisodes collectés par des professionnels à l'aide de matériel standardisé. Pour l'approvisionnement en matériel ou pour louer un système bimanuel, visitez notre catalogue de matériel ou contactez l'équipe SVRC.