Politique de diffusion de l'apprentissage robotique : qu'est-ce que c'est et comment l'utiliser
Politique de diffusion, introduite par Chi et al. en 2023, a apporté la révolution de la modélisation générative au contrôle des robots. En traitant la génération d’actions comme un problème de débruitage, il gère la nature multimodale et de grande dimension du comportement de manipulation d’une manière que les algorithmes de clonage comportemental plus simples ne peuvent pas. Voici ce que vous devez savoir pour l’appliquer à votre propre projet de robotique.
Qu’est-ce que la politique de diffusion ?
La politique de diffusion est une classe de politiques de contrôle de robots basées sur des modèles probabilistes de diffusion avec débruitage (DDPM) – le même cadre mathématique qui sous-tend les modèles texte-image comme la diffusion stable. Dans le contexte du robot, « l'image » générée est une séquence d'actions du robot (une trajectoire). En partant d'un bruit gaussien pur dans l'espace d'action, le modèle le débruite de manière itérative en fonction de l'observation visuelle actuelle et de l'état du robot, produisant une séquence d'action cohérente et de haute qualité après 10 à 100 étapes de débruitage.
L’idée clé est que les modèles de diffusion apprennent une distribution de probabilité complète sur les actions plutôt que de prédire une seule meilleure action. Pour la robotique, c’est essentiel. Les démonstrations humaines d'une même tâche sont naturellement multimodales : une personne peut saisir une tasse du côté gauche ou du côté droit en fonction d'indices contextuels subtils. Un modèle qui doit réduire cette distribution à une seule prédiction s'engagera soit dans un mode et échouera l'autre moitié du temps, soit fera la moyenne des modes et produira une trajectoire intermédiaire bizarre qui échoue toujours. La politique de diffusion évite cela en modélisant explicitement la distribution et en en échantillonnant au moment de l'inférence.
Pourquoi la politique de diffusion surpasse le clonage comportemental standard
Le clonage comportemental standard (BC) forme une politique comme un problème de régression supervisée : une observation donnée, prédit l'action. Cela fonctionne lorsque la cartographie des observations aux actions est déterministe et unimodale. En pratique, les tâches de manipulation le sont rarement. Même les tâches « simples » comme retirer un bloc d'une table impliquent plusieurs angles d'approche, poses de préhension et configurations de pré-saisie valides. Naive BC produit des politiques qui hésitent aux points de décision, font des choix de mouvement compromis ou échouent carrément lorsque la distribution des tests diffère légèrement de la formation.
La politique de diffusion surpasse systématiquement les références de la Colombie-Britannique sur les suites de manipulation de référence. Dans l'article original, il a obtenu des résultats de pointe sur 11 des 12 tâches du benchmark Robomimic, avec des marges particulièrement importantes sur les tâches à forte multimodalité d'action. Lors des évaluations de robots réels, la politique de diffusion a démontré un comportement de récupération plus robuste : lorsque le robot atteignait un état intermédiaire légèrement erroné, la politique pouvait récupérer car elle échantillonnait à partir d'une large distribution plutôt que de suivre un chemin déterministe.
Par rapport à ACT (Action Chunking with Transformers), la politique de diffusion fonctionne généralement mieux sur les tâches à forte multimodalité et moins bien sur les tâches avec des dépendances à long terme où la prédiction de fragments d'ACT brille. En pratique, les deux algorithmes sont suffisamment compétitifs pour que la qualité et la quantité des ensembles de données comptent plus que le choix de l’architecture politique. Si vous ne savez pas lequel utiliser, essayez d'abord ACT pour la vitesse d'itération, puis Diffusion Policy si vous observez des échecs de moyenne de mode.
Exigences en matière de données pour la politique de diffusion
La politique de diffusion bénéficie de plus de données que l'ACT, principalement parce que le réseau de débruitage a plus de paramètres et un objectif de modélisation plus riche. Un minimum pratique est de 100 à 200 démonstrations pour une seule tâche dans des conditions contrôlées. Pour obtenir des performances de déploiement robustes (gestion des variations de position des objets, des changements d'éclairage et du bruit occasionnel des capteurs), prévoyez 300 à 500 démonstrations par tâche. Contrairement à ACT, la politique de diffusion a tendance à continuer de s'améliorer avec des données supplémentaires jusqu'à des ensembles de données de taille assez importante, ce qui en fait le meilleur choix si vous envisagez d'investir dans un effort de collecte de données à grande échelle.
La diversité des données est aussi importante que le volume. Les démonstrations doivent couvrir la gamme de positions d'objets, d'orientations et de configurations de scènes que vous attendez lors du déploiement. Un ensemble serré de manifestations avec des objets toujours exactement au même endroit produira une politique qui échoue dès qu’un objet est déplacé de quelques centimètres. Les SVRC service de collecte de données géré suit des protocoles de variation structurés – en randomisant systématiquement les positions des objets, les conditions d'éclairage et les styles de prise en main des opérateurs – pour garantir que les ensembles de données produisent des politiques généralisables.
La représentation de l’observation est également importante. La politique de diffusion avec un encodeur d'image ResNet formé de bout en bout surpasse généralement les politiques utilisant des encodeurs pré-entraînés gelés sur des distributions de tâches étroites, mais les encodeurs pré-entraînés (R3M, MVP, DINO) produisent une meilleure généralisation lorsque les conditions de test diffèrent de la formation. Pour la plupart des projets pratiques, commencez avec un encodeur pré-entraîné pour maximiser la valeur de votre ensemble de données, et passez à une formation de bout en bout uniquement si vous disposez de plus de 500 démonstrations et d'un environnement stable.
Configuration de la formation et exigences de calcul
L'implémentation de référence de Diffusion Policy (disponible sur le Columbia Robotics Lab GitHub) s'entraîne avec un backbone UNet (inférence plus rapide, capacité inférieure) ou un backbone Transformer (inférence plus lente, capacité plus élevée). Pour la plupart des projets à tâche unique, la variante UNet constitue le bon point de départ. La formation sur un seul RTX 3090 ou 4090 prend 4 à 12 heures pour un ensemble de données de 200 épisodes, en fonction de la résolution d'observation et de la longueur de l'horizon d'action.
Hyperparamètres clés à définir correctement : l'horizon d'action (combien d'étapes futures à prédire - généralement 16 à 32 pour les tâches de table), le nombre d'étapes de diffusion (100 pour DDPM, 10 à 25 pour DDIM avec une perte de qualité minimale) et la fenêtre d'observation (combien d'images passées à inclure - généralement 2). Ne changez pas les trois à la fois ; corrigez les autres lors du réglage d’un. Le changement le plus impactant pour améliorer les performances des politiques consiste généralement à augmenter la taille de l’ensemble de données, et non à régler les hyperparamètres de l’architecture.
Pour l'inférence sur un vrai robot, le DDPM à 100 pas est généralement trop lent pour un contrôle haute fréquence. Utilisez le planificateur DDIM avec 10 à 25 étapes, qui fonctionne à ~ 20 Hz sur un RTX 3090 – suffisant pour un contrôle à 10 Hz avec un tampon. Alternativement, la distillation des politiques de cohérence peut permettre une inférence en 1 à 3 étapes avec une dégradation minimale des performances pour des tâches plus simples.
Utilisation des services de données SVRC pour la politique de diffusion
Les SVRC pipeline de services de données produit des ensembles de données formatés pour une utilisation directe avec l'implémentation de référence de la politique de diffusion et le framework HuggingFace LeRobot. Les épisodes sont stockés sous forme d'archives ZARR avec des flux d'images synchronisés, un état proprioceptif et des actions à 50 Hz. Le filtrage de qualité supprime les épisodes dans lesquels la tâche n'a pas été accomplie avec succès, le robot est entré en collision avec l'environnement ou l'hésitation de l'opérateur a produit des trajectoires non représentatives.
Notre service de collecte utilise le Plateforme de téléopération SVRC avec contrôle leader-suiveur à double bras, caméras montées au poignet et aériennes et enregistrement force-couple en option. Pour la formation multitâche sur les politiques de diffusion – où une seule politique apprend plusieurs tâches en fonction de l'ID de la tâche ou de la langue – nous pouvons collecter plusieurs variantes de tâches au sein de la même campagne et fournir un ensemble de données unifié. Les équipes travaillant avec les plates-formes matérielles OpenArm ou ALOHA bénéficient d'un support matériel natif ; une intégration matérielle personnalisée est disponible sur demande. Contactez notre équipe pour discuter de vos besoins en matière de données et de votre calendrier.