Apprentissage des robots

Généralisation des politiques de robot : pourquoi votre robot échoue sur de nouveaux objets

Votre politique atteint 90 % de réussite sur les objets de formation. Vous introduisez une nouvelle tasse, une boîte différente, un outil inconnu – et les performances chutent à 30 %. C’est le problème de la généralisation, et c’est le défi central du déploiement de l’apprentissage robotique dans le monde réel.

Ce que la généralisation signifie pour les politiques relatives aux robots

Une politique de robot se généralise lorsqu'il exécute avec succès une tâche sur des objets, des positions et des conditions non vues lors de la formation. Ceci est différent de la simple mémorisation du comportement démontré : la mémorisation produit des politiques fragiles qui échouent dès que les conditions de déploiement diffèrent des conditions de formation. La généralisation nécessite que la politique apprenne un concept de tâche sous-jacent (ramasser le récipient, verser le liquide) plutôt qu'une séquence de mouvements spécifique liée à des entrées visuelles spécifiques.

Il existe plusieurs axes de généralisation qui comptent dans la pratique : la généralisation de l'apparence des objets (même forme, couleur ou texture différente), la généralisation de la géométrie des objets (même catégorie, taille ou forme exacte différente), la généralisation de la position (même objet, emplacement de départ différent) et la généralisation de la composition (nouvelles combinaisons d'éléments de tâche familiers). Chaque axe nécessite des stratégies de données différentes et est plus ou moins difficile selon l'architecture politique.

Pourquoi cela échoue : les causes profondes

La cause la plus courante d’une mauvaise généralisation est une diversité insuffisante dans l’ensemble de données de formation. Si toutes les manifestations utilisaient la même tasse rouge dans la même position de départ, la politique apprend les caractéristiques spécifiques à cette tasse et à cette position – et non le concept général de « tasse ». La politique ne peut pas faire de distinction entre « récupérer ce gobelet rouge spécifique à cet endroit spécifique » et « récupérer n'importe quel gobelet n'importe où ». Il ne s’agit pas d’un défaut de l’algorithme ; c'est un problème de données.

Une cause secondaire est le changement de distribution des caractéristiques visuelles. Si les démonstrations de formation ont été enregistrées sous un éclairage de studio contrôlé et que le déploiement s'effectue dans une lumière ambiante variable, les fonctionnalités visuelles apprises par la politique peuvent ne pas s'activer correctement lors des observations de déploiement. De même, si un nouvel objet a une texture de surface ou une réflectance différente de celle des objets d'entraînement, les caractéristiques visuelles de bas niveau utilisées par l'épine dorsale de la politique peuvent ne pas correspondre aux attentes. C'est pourquoi la norme de collecte de données du SVRC nécessite la collecte de données dans plusieurs conditions d'éclairage et avec diverses instances d'objets.

Stratégies de diversité des données

Le moyen le plus fiable d’améliorer la généralisation est la diversification délibérée des ensembles de données. Pour la diversité des objets : rassemblez des démonstrations avec au moins 10 à 20 instances distinctes de la catégorie d'objet cible, de taille, de couleur, de matériau et de marque variables. Pour la diversité des positions : variez la position de départ sur une grille de 30 à 40 cm et incluez différentes orientations. Pour la diversité de l'arrière-plan : modifiez la surface de l'espace de travail, ajoutez des distractions et variez l'éclairage d'une session à l'autre.

L’augmentation des données peut compléter la diversité réelle mais ne peut pas la remplacer. Les augmentations visuelles standard (instabilité des couleurs, recadrage aléatoire, variation de luminosité/contraste) améliorent la robustesse aux variations d'éclairage mais ne remplacent pas diverses instances d'objets. La génération de données synthétiques augmentées à l'aide de l'édition d'images ou de modèles génératifs pour créer des variations d'objets s'est révélée prometteuse, mais nécessite un contrôle qualité minutieux pour éviter d'introduire des artefacts visuels irréalistes.

VLA et politiques spécifiques à une tâche

Les modèles vision-langage-action (VLA) – des politiques qui prennent des instructions linguistiques et des observations visuelles comme entrées et produisent des actions – offrent une approche différente de la généralisation. En ancrant le comportement des robots dans les riches représentations sémantiques d'un pré-entraînement au langage de grande vision, les VLA peuvent parfois gérer de nouvelles instances d'objets en fonction de leur apparence visuelle correspondant à la description du langage ("ramasser la tasse" se généralise à tout objet que le modèle reconnaît comme une tasse). Des modèles comme OpenVLA, Octo et RT-2 ont démontré une généralisation zéro-shot significative sur certaines tâches de manipulation.

Cependant, les VLA ne sont pas des machines magiques à généraliser. Ils excellent dans la généralisation sémantique (nouvelles instances d'objets au sein d'une catégorie connue), mais ont encore du mal à généraliser géométriquement (nouvelles formes d'objets nécessitant différentes configurations de préhension) et avec les tâches qui nécessitent un contrôle précis de la force ou un comportement riche en contacts. Pour la plupart des équipes de recherche, la recommandation pratique est la suivante : utilisez un VLA comme point de départ ou colonne vertébrale, puis affinez les démonstrations spécifiques à une tâche pour obtenir la précision et la fiabilité dont vous avez besoin.

Méthodes d'évaluation pour la généralisation

La généralisation doit être évaluée explicitement, et non déduite des performances en distribution. Le protocole d'évaluation standard utilise un ensemble de tests d'objets non présents dans la formation - idéalement 5 à 10 instances d'objets par catégorie qui ont été délibérément exclues de la collecte de données. Évaluez l’ensemble des éléments retenus après la formation et signalez séparément les taux de réussite en distribution et hors distribution. Une politique qui atteint 85 % de diffusion mais seulement 40 % de diffusion hors distribution a une généralisation limitée et nécessite des données de formation plus diversifiées.

Les normes de qualité du SVRC nécessitent une évaluation de généralisation avant qu'un ensemble de données ne soit marqué comme prêt à être produit. Notre pipeline d'annotation et d'évaluation comprend un ensemble d'objets réservés pour tous les ensembles de données de manipulation, et notre équipe d'ingénierie peut exécuter des évaluations de généralisation standardisées sur des politiques formées. Pour obtenir de l'aide pour créer un ensemble de données plus généralisable grâce à notre services de données, ou pour un support à l'évaluation, contactez l'équipe SVRC.