La politique d'ACT expliquée : action fragmentée avec des transformateurs pour l'apprentissage des robots

ACT – Action Chunking with Transformers – est devenu l’un des algorithmes d’apprentissage par imitation les plus largement adoptés pour une manipulation adroite après sa publication par Tony Zhao et ses collaborateurs de Stanford. Voici une explication pratique de son fonctionnement et de son utilisation.

Qu’est-ce qu’ACT ?

ACT est un algorithme d'apprentissage par imitation conçu pour les tâches de manipulation fines dans lesquelles le robot doit effectuer des mouvements fluides et coordonnés basés sur des observations visuelles. Au moment de l'inférence, ACT prend une séquence d'images des caméras du robot et de l'état actuel de l'articulation, et génère un ensemble d'actions futures (une courte séquence de cibles de position commune) plutôt qu'une seule action suivante. Le robot exécute ce morceau, puis réinterroge la stratégie pour le morceau suivant. Cette conception à plusieurs étapes est la caractéristique déterminante d'ACT et la source de la plupart de ses avantages par rapport au clonage de comportement plus simple.

ACT a été introduit dans le contexte du système de manipulation bimanuelle ALOHA et a démontré son succès dans des tâches auparavant considérées comme hors de portée pour l'apprentissage par imitation : insérer une pile, ouvrir un sac ziploc, enfiler une aiguille. Son idée principale – à savoir que la prédiction d’action fragmentée réduit les erreurs de composition et lisse les trajectoires – a depuis été adoptée dans de nombreux algorithmes de suivi.

Comment fonctionne le regroupement d'actions

Le clonage de comportement standard (BC) entraîne une politique pour prédire la prochaine action unique compte tenu de l'observation actuelle. Au moment de l'inférence, les erreurs de prédiction s'accumulent : chaque petite erreur modifie légèrement l'état du robot, le plaçant dans une distribution sur laquelle la politique n'a pas été formée, ce qui rend la prédiction suivante pire, et ainsi de suite. Cette erreur composée est le mode de défaillance central du BC naïf sur les tâches de manipulation fine.

La segmentation des actions brise ce cycle en prédisant une séquence de k actions futures – généralement 50 à 100 étapes à 50 Hz, correspondant à 1 à 2 secondes de mouvement. La stratégie s’engage sur ce plan et l’exécute avant de réinterroger. Étant donné que le plan a été généré à partir d’une seule observation cohérente, la trajectoire est fluide et cohérente en interne. L'assemblage temporel - en faisant la moyenne des morceaux d'action qui se chevauchent à partir de plusieurs nouvelles requêtes - lisse davantage l'exécution et réduit la gigue aux limites entre les morceaux.

Architecture ACT

ACT utilise une architecture CVAE (Conditional Variational Autoencoder). Pendant la formation, un encodeur traite l'intégralité de la trajectoire de la démonstration (images, états communs et actions) et produit une variable de style latente z qui capture le « style » de la démonstration (approche rapide ou lente, tendance à gauche ou à droite, etc.). Un décodeur basé sur un transformateur prend ensuite l'observation actuelle, le z latent et les codages de position, et prédit le bloc d'action. Au moment de l'inférence, z est fixé à zéro (la moyenne du précédent), ce qui rend la politique déterministe compte tenu de l'observation.

L'épine dorsale de la vision est généralement un ResNet-18 traitant chaque vue de caméra indépendamment, les cartes de caractéristiques résultantes étant transmises sous forme de jetons au décodeur du transformateur. Plusieurs vues de caméra (caméras au poignet et caméras aériennes) contribuent chacune à un flux de jetons, fournissant à la politique de riches informations spatiales sur la scène de manipulation.

Exigences en matière de données et ce qui constitue de bonnes données

ACT fonctionne bien avec 50 à 200 démonstrations par tâche dans la plupart des résultats publiés. Cependant, la qualité des données compte plus que la quantité. Les démonstrations doivent être fluides et ciblées : la politique ACT apprendra quel que soit le modèle de mouvement présent dans les données, y compris les hésitations, les corrections et les approches sous-optimales. Les SVRC norme de collecte de données oblige les opérateurs à redémarrer un épisode plutôt que de continuer après une erreur visible, garantissant ainsi que l'ensemble de données de formation ne contient que des comportements intentionnels et réussis.

La cohérence de la caméra est également essentielle. Si le placement de la caméra change entre les sessions d'enregistrement, les fonctionnalités visuelles apprises par la stratégie ne correspondront plus à la configuration de déploiement. Utilisez des supports physiques plutôt que des bras flexibles et enregistrez les paramètres d'étalonnage de la caméra avec chaque ensemble de données. Le pipeline d'enregistrement multi-caméras de SVRC applique cela automatiquement.

ACT vs clonage comportemental : résultats

Sur les tâches ALOHA originales, ACT a atteint des taux de réussite de 80 à 95 %, contre 20 à 50 % pour la Colombie-Britannique standard sur les mêmes données. L'amélioration est plus prononcée sur les tâches nécessitant un timing précis, une coordination fluide entre deux bras et une récupération gracieuse après de petites perturbations. Sur des tâches de sélection et de placement plus simples avec des tolérances indulgentes, l'écart entre ACT et BC se réduit. ACT surpasse également la politique de diffusion sur les tâches où la vitesse d'exécution est importante, car les politiques basées sur la diffusion nécessitent plus de calculs par étape d'inférence.

Formation ACT avec les données SVRC

Les SVRC plateforme de données exporte des ensembles de données au format HDF5 compatible LeRobot, qui est le format d'entrée standard pour le code de formation open source ACT. Après avoir téléchargé votre ensemble de données, la formation d'une stratégie ACT de base nécessite un GPU avec au moins 16 Go de VRAM et environ 8 heures de formation pour une seule tâche. Le support technique SVRC est disponible pour aider les équipes à configurer les cycles de formation, à régler la taille des blocs et le taux d'apprentissage, et à évaluer les performances des politiques. Pour le matériel permettant de collecter vos propres données, consultez notre catalogue de matériel ou explorez options de location de robots.

En rapport: Guide LeRobot · Configuration ALOHA mobile · Annotation des données du robot · Ouvrir l'incarnation X