Apprentissage par imitation pour les robots : un guide pratique

L’apprentissage par imitation est devenu le paradigme dominant pour enseigner aux robots des compétences de manipulation adroite. Au lieu de créer manuellement des fonctions de récompense ou d'écrire des plans de mouvement, vous montrez simplement au robot quoi faire. Ce guide explique comment cela fonctionne, quels algorithmes utiliser et de quelle infrastructure vous avez besoin pour obtenir des résultats.

Qu’est-ce que l’apprentissage par imitation ?

L'apprentissage par imitation (IL) – également appelé apprentissage par démonstration (LfD) ou clonage comportemental – entraîne une politique pour reproduire les actions capturées par un opérateur humain. Pendant la collecte de données, un démonstrateur qualifié téléopère le robot à travers la tâche cible tandis que les capteurs enregistrent les positions des articulations, les poses des effecteurs terminaux, les images de la caméra et tout autre état pertinent. Ces données enregistrées deviennent l’ensemble de formation pour une politique de réseau neuronal.

L’attrait de l’IL par rapport à l’apprentissage par renforcement est pratique : vous n’avez pas besoin de concevoir un signal de récompense, d’exécuter des millions de déploiements simulés ou de résoudre un problème d’exploration de récompense clairsemée. Si un humain peut accomplir la tâche, le robot peut potentiellement l’apprendre grâce à quelques centaines à quelques milliers de démonstrations. Le défi est la généralisation : les politiques formées sur des démonstrations étroites peuvent échouer lorsque la position des objets, l'éclairage ou les variations des tâches diffèrent de la répartition de la formation.

La recherche moderne en IL répond à ce problème grâce à de meilleures architectures, des ensembles de données plus vastes et plus diversifiés et des représentations visuelles pré-entraînées. Le domaine a progressé rapidement depuis 2023, et l’apprentissage par imitation de qualité production est désormais à la portée des équipes n’ayant pas accès à un programme de doctorat en robotique.

ACT : action fragmentée avec les transformateurs

ACT, introduit parallèlement à la plateforme robotique bimanuelle ALOHA de Stanford, traite le contrôle du robot comme un problème de prédiction de séquence. La politique prédit une série d’actions futures – généralement 50 à 100 intervalles de temps – plutôt qu’une seule action suivante. Cette segmentation des actions réduit l’erreur de composition, qui est le principal mode d’échec du clonage comportemental naïf où de petites erreurs de prédiction s’accumulent au cours d’une trajectoire.

ACT utilise un CVAE (Conditional Variational Autoencoder) pendant la formation pour capturer la multimodalité des démonstrations humaines – le fait qu'il existe souvent plus d'une manière correcte d'accomplir une tâche. Au moment de l'inférence, le décodeur génère des séquences d'actions conditionnées par les observations actuelles de la caméra et l'état commun. Le résultat est une politique qui gère la variation naturelle des tâches démontrées par l’homme sans artefacts de moyenne de mode.

ACT est un point de départ solide pour les tâches de manipulation bimanuelle. Il nécessite des volumes de données relativement modestes (50 à 200 démonstrations par tâche) et s'entraîne sur un seul GPU en quelques heures. Si vous travaillez avec du matériel ALOHA ou une configuration bimanuelle similaire, ACT devrait être votre premier algorithme à essayer. Les SVRC services de données inclure des ensembles de données prétraités compatibles ACT collectés sur des plates-formes de classe ALOHA.

Politique de diffusion : gestion des distributions d'actions multimodales

La politique de diffusion applique des modèles de diffusion correspondant à des scores (la même classe de modèles qui alimente la diffusion stable des images) à l'espace d'action du robot. Plutôt que de prédire une seule meilleure action, la politique apprend la répartition complète des actions qu'un démonstrateur humain pourrait entreprendre. Au moment de l'inférence, il exécute un processus de débruitage pour échantillonner une action de haute qualité à partir de cette distribution.

Le principal avantage par rapport à ACT réside dans la façon dont il gère les tâches multimodales : des scénarios dans lesquels un humain peut saisir un objet par la gauche ou la droite, ou s'approcher d'une cible sous plusieurs angles valides. Le clonage comportemental standard fait la moyenne de ces modes, produisant une politique qui se situe au milieu et échoue. La politique de diffusion échantillonne à partir du mode correct compte tenu du contexte actuel, produisant un comportement plus robuste sur les tâches ambiguës.

Le compromis est la vitesse d'inférence. La politique de diffusion avec un réseau fédérateur UNet nécessite par défaut 100 étapes de débruitage lors de l'inférence, ce qui peut être trop lent pour un contrôle en temps réel. L'échantillonneur DDIM et les variantes de distillation de consistance réduisent ce nombre à 10 à 25 étapes, ce qui rend le fonctionnement en temps réel viable. Pour les besoins en données, la politique de diffusion bénéficie généralement de plus de démonstrations que l'ACT, mais récompense davantage la diversité des ensembles de données que la quantité brute.

Modèles Vision-Langage-Action : IL à grande échelle

Les VLA comme OpenVLA, pi0 et RT-2 étendent l'apprentissage par imitation en pré-entraînant sur des données visuelles et linguistiques à l'échelle Internet avant d'affiner les démonstrations de robots. L'épine dorsale pré-entraînée fournit une riche représentation d'objets, de scènes et de relations qui se transfère puissamment à la manipulation du robot. La mise au point nécessite beaucoup moins de démonstrations qu’une formation à partir de zéro – parfois seulement 10 à 50 exemples spécifiques à une tâche.

Pour les équipes qui peuvent se permettre les exigences de calcul et de licence, les VLA représentent la frontière actuelle en matière de performances IL. Ils se généralisent mieux aux nouveaux objets, aux nouveaux environnements et aux variations de tâches spécifiées par le langage. SVRC fournit des ensembles de données de réglage fin et infrastructure de téléopération compatible avec les formats de données attendus par les principaux pipelines de formation VLA. Voir notre Guide expliqué des modèles VLA pour une analyse technique plus approfondie.

Exigences en matière de données pour l'apprentissage par imitation

L'ensemble de données minimum viable pour une seule tâche de manipulation est généralement de 50 démonstrations pour ACT, de 100 à 200 pour la politique de diffusion et de 20 à 50 pour le réglage fin du VLA. Il s'agit d'estimations au sol dans des conditions favorables : éclairage constant, points de vue de caméra fixes et objets dans des positions prévisibles. Le déploiement dans le monde réel nécessite 3 à 5 fois plus de données pour couvrir les variations que votre système rencontrera en production.

La qualité des données compte autant que la quantité. Les démonstrations doivent être collectées par des opérateurs qualifiés qui accomplissent la tâche de manière cohérente et propre. Les tentatives infructueuses, les hésitations et les corrections qui entrent dans l’ensemble de formation comme des succès dégraderont la performance politique. Les SVRC service de collecte de données géré fournit des opérateurs formés, une sélection d'épisodes filtrés par qualité et un conditionnement d'ensembles de données structuré, ce qui permet à votre équipe d'ingénierie d'économiser des semaines de travail sur le pipeline de données.

La diversité des capteurs est également importante. Les stratégies formées sur une seule caméra de poignet échouent souvent lorsque cette caméra est masquée. La meilleure pratique consiste à collecter à partir d’au moins deux points de vue de caméra – une vue fixe du dessus ou de côté et une au poignet – et à inclure l’état proprioceptif (angles et vitesses des articulations) aux côtés des observations visuelles.

Matériel et infrastructure pour la recherche IL

La pile matérielle minimale pour un projet de recherche sur l'apprentissage par imitation comprend : un bras robotique avec des degrés de liberté suffisants pour votre tâche (au moins 6 DOF pour la manipulation générale), un système de téléopération leader-suiveur ou basé sur VR pour la collecte de données, deux caméras ou plus et une station de travail avec au moins un GPU NVIDIA (RTX 3090 ou supérieur pour la politique ACT/Diffusion ; A100 ou H100 recommandés pour le réglage fin du VLA).

Les SVRC catalogue de matériel comprend la plate-forme OpenArm, livrée avec un bras leader de téléopération compatible et du matériel de montage pour les configurations de caméra standard. Le Plateforme SVRC fournit la couche logicielle : enregistrement des épisodes, gestion des ensembles de données, pipelines de formation aux politiques et outils d'évaluation. Les équipes peuvent louer plutôt qu'acheter du matériel pour des projets à court terme via le programme de location de robots, qui est souvent le chemin le plus rapide vers un prototype IL fonctionnel.

Pour les équipes qui souhaitent commencer avec des données avant d'investir dans du matériel, SVRC offre un accès à des ensembles de données de démonstration multitâches collectées dans nos installations de Palo Alto. Ces ensembles de données couvrent les primitives de manipulation courantes (prélèvement, placement, versement, pliage, assemblage) et sont formatés pour une utilisation directe avec ACT, Diffusion Policy et Hugging Face LeRobot. Contactez notre équipe pour discuter des options d’accès aux ensembles de données.

En rapport: Modèles VLA expliqués · Politique de diffusion de l’apprentissage des robots · Guide des robots ALOHA · Services de données · Que sont les données d’entraînement des robots ?