Qu'est-ce qu'un modèle VLA ?

Les modèles Vision-Langage-Action (VLA) prennent des observations visuelles et des instructions linguistiques en entrée et génèrent directement les actions du robot. Ils combinent la compréhension visuelle des modèles de langage de vision (VLM) avec des capacités de contrôle moteur entraînées sur les données de démonstration du robot. Considérez-les comme des modèles de base pour le contrôle des robots.

Comparaison des principaux modèles VLA

RT-2 (Google DeepMind) : 55 B de paramètres, forte généralisation, non accessible au public. OpenVLA (Stanford/Berkeley) : paramètres 7B, open-source, affinables sur des données personnalisées. Octo (Berkeley) : 93 millions de paramètres, inférence rapide, prend en charge plusieurs modes de réalisation de robots. π₀ (Intelligence Physique) : VLA basée sur la diffusion, forte manipulation adroite.

  • Pour la recherche avec un calcul limité : Octo
  • Pour affiner les tâches personnalisées : OpenVLA
  • Pour la capacité la plus élevée : π₀ (si disponible)

Considérations sur le déploiement

Les modèles VLA nécessitent une inférence GPU (généralement RTX 3090 ou supérieur). La latence d'inférence varie de 50 ms (Octo) à 500 ms+ (OpenVLA 7B). La segmentation des actions permet de combler le fossé entre l'inférence lente et les boucles de contrôle rapides. La mise au point de 50 à 200 démonstrations spécifiques à des tâches donne généralement d'excellents résultats. SVRC fournit des postes de travail préconfigurés pour le développement de VLA.