Les modèles vision-langage-action expliqués : comment les VLA alimentent les robots modernes

Les modèles vision-langage-action sont l'équivalent robotique de GPT-4 : des réseaux neuronaux massifs et pré-entraînés qui peuvent être ajustés pour effectuer un large éventail de tâches physiques. Comprendre ce que sont les VLA, comment ils fonctionnent et quand les utiliser est désormais une connaissance essentielle pour tout praticien sérieux en robotique.

Qu’est-ce qu’un modèle vision-langage-action ?

Un modèle vision-langage-action (VLA) est un réseau neuronal qui prend en entrée des observations visuelles (images de caméra) et des instructions en langage naturel, et génère des actions de robot : vitesses articulaires, poses d'effecteurs terminaux ou commandes de préhension. La partie « vision-langage » fait référence au squelette pré-entraîné : ces modèles héritent de leur compréhension visuelle et sémantique d'un pré-entraînement Internet à grande échelle sur des paires image-texte, un peu à la manière de CLIP ou d'un modèle vision-langage (VLM). La partie « action » est la tête de mise au point entraînée sur les données de démonstration du robot.

L’idée principale est que la pré-formation sur les données Internet donne au robot une riche représentation du monde physique – ce que sont les objets, comment ils se rapportent dans l’espace et ce que signifie le langage – avant même d’avoir vu une démonstration de robot. Un réglage fin adapte ensuite cette représentation au mode de réalisation du robot et aux tâches cibles. Parce que l'épine dorsale comprend déjà « ramasser la tasse bleue » ou « ouvrir le tiroir de gauche », le modèle peut se généraliser à de nouveaux objets et formulations de tâches avec beaucoup moins de démonstrations qu'une politique formée à partir de zéro.

RT-2 : le premier VLA à grande échelle

RT-2 (Robotics Transformer 2), publié par Google DeepMind en 2023, a été la première démonstration que la mise à l'échelle d'un modèle de langage de vision pour le contrôle d'un robot a produit des capacités qualitativement nouvelles. RT-2 a co-affiné simultanément un modèle de langage de vision PaLI-X sur les données Web et les trajectoires des robots, produisant une politique capable de suivre de nouvelles instructions, de raisonner sur les propriétés des objets et de généraliser à des objets qu'elle n'avait jamais vus dans des démonstrations de robots - uniquement sur Internet.

RT-2 a montré que les VLA pouvaient effectuer un raisonnement en chaîne de pensée : lorsqu'on lui a demandé de ramasser « quelque chose que vous pouvez utiliser pour nettoyer un déversement », le modèle a identifié une éponge sur les lieux sans jamais avoir été explicitement invité à associer les éponges au nettoyage. Cette capacité émergente – la généralisation sémantique au-delà de la distribution de la formation – est ce qui différencie qualitativement les VLA des politiques classiques d’apprentissage par imitation. Le compromis est de calcul : RT-2 fonctionne sur un modèle avec 55 milliards de paramètres, nécessitant une infrastructure importante à déployer.

OpenVLA : réglage fin du VLA open source

OpenVLA, publié par des chercheurs de Stanford et de Berkeley en 2024, a démocratisé le réglage fin du VLA en s'appuyant sur le Prismatic VLM open source (lui-même basé sur LLaMA) et en s'entraînant sur l'ensemble de données Open X-Embodiment – ​​une collection de 970 000 épisodes de démonstrations de robots provenant de 22 modes de réalisation différents. OpenVLA est le point de départ que la plupart des équipes de recherche utilisent aujourd'hui car il est entièrement open source, bien documenté et atteint de solides performances sur les tests de manipulation standard.

Le réglage fin d'OpenVLA sur une tâche personnalisée ne nécessite que 50 à 200 démonstrations, un ensemble de données formaté avec les conventions HuggingFace LeRobot et un seul GPU A100 ou H100 de 80 Go pour une formation de plusieurs heures. La politique qui en résulte est étonnamment capable de se généraliser à des variations de scènes et à de nouvelles positions d'objets non vues lors de la formation, grâce à la structure visuelle pré-entraînée. Les SVRC service de collecte de données produit des ensembles de données au format compatible LeRobot, prêts pour le réglage fin d'OpenVLA dès le départ.

pi0 : la politique généraliste de l'intelligence physique

pi0, de Physical Intelligence (pi.ai), représente la frontière commerciale du développement de VLA. Contrairement à OpenVLA, qui hérite d'un modèle de langage, pi0 utilise une tête d'action de correspondance de flux qui produit des trajectoires d'action continues et fluides – plus adaptées aux tâches adroites qu'aux actions discrètes tokenisées. pi0 a été formé sur un ensemble de données exclusives de plus de 10 000 heures de démonstrations de robots sur des dizaines de tâches et de plates-formes matérielles.

Ce qui distingue pi0 sur le plan architectural est la séparation entre la voie de raisonnement « lente » conditionnée par le langage et la voie de contrôle moteur réactif « rapide ». Cela reflète les connaissances des sciences cognitives sur les systèmes de contrôle à double processus. Le chemin lent traite l'instruction de la tâche et la scène actuelle pour produire un plan de haut niveau ; la voie rapide génère des commandes de moteur à faible latence. Le résultat est une politique capable de gérer à la fois le raisonnement à long terme et le contrôle réactif à haute fréquence, ouvrant la porte à des tâches telles que le pliage du linge, où les deux sont nécessaires simultanément.

L'accès à pi0 pour le déploiement commercial est disponible via le programme d'entreprise de Physical Intelligence. Pour les équipes explorant les architectures de style pi0, SVRC repères incluez des évaluations des politiques de correspondance de flux sur les suites de manipulation standard, vous donnant un point de référence pour les performances attendues avant de vous engager dans une exécution de formation.

En quoi les VLA diffèrent des politiques classiques d'apprentissage par imitation

Les politiques IL classiques – ACT, Diffusion Policy, BC-Z – apprennent entièrement des données de démonstration de robots. Leurs représentations visuelles sont apprises à partir de zéro ou à partir d'un encodeur étroit pré-entraîné (comme R3M ou MVP). Ils généralisent bien au sein de leur répartition de formation, mais ont du mal avec les nouveaux objets, les changements d'éclairage ou les instructions de tâches qui reformulent l'objectif. Ils ont également besoin de plus de démonstrations pour atteindre un niveau de performance donné, car ils ne disposent pas du préalable sémantique fourni par la pré-formation.

Les VLA échangent le calcul contre la généralisation. Une politique ACT classique sur un GPU coûte quelques centimes par inférence ; une étape d'inférence VLA sur un modèle à paramètres 7B coûte des ordres de grandeur plus élevés. Pour les tâches qui doivent être largement généralisées à travers les environnements et les instructions, les VLA gagnent. Pour une tâche industrielle répétitive et étroitement définie pour laquelle vous disposez de plus de 1 000 démonstrations et pouvez régler l’environnement, une politique classique permet souvent d’obtenir une vitesse et une fiabilité supérieures à moindre coût. Le cadre décisionnel pratique : si votre tâche nécessite une généralisation, commencez par un backbone VLA. Si elle est étroite et à haut débit, optimisez une politique classique.

Affiner les VLA avec les données SVRC

SVRC fournit un support de bout en bout pour les projets de réglage fin du VLA. Notre infrastructure de téléopération capture des démonstrations au format RLDS/LeRobot avec une vidéo multi-caméras synchronisée, un état proprioceptif et des étiquettes d'action à 50 Hz. Nos pipelines d'ensembles de données incluent le filtrage de la qualité des épisodes (suppression des tentatives infructueuses et des hésitations), les métadonnées d'étalonnage de la caméra et l'annotation des instructions de tâche.

Pour les équipes qui ont besoin de données personnalisées à grande échelle, notre service de collecte géré dans les installations de Palo Alto peut produire des centaines de démonstrations par jour avec des opérateurs formés sur une bibliothèque de tâches de manipulation. Nous proposons également des consultations sur la conception des tâches – définissant la portée, les axes de variation et les critères de réussite d'un ensemble de données qui formera réellement une politique généralisable. Contactez notre équipe pour discuter de votre projet de réglage fin du VLA, ou explorez notre catalogue d'ensembles de données existant via le Plateforme SVRC.

En rapport: Apprentissage par imitation pour les robots · Politique de diffusion de l’apprentissage des robots · Guide des robots ALOHA · Services de données · Repères