VLA et VLM

Modèles Vision-Langage-Action et Vision-Langage - contrôle de robot conditionné par le langage.

Que sont VLA et VLM ?

VLM (Modèle Vision-Langage) — Des modèles multimodaux qui comprennent à la fois les images et le texte. Utilisé pour le sous-titrage, le VQA et la mise à la terre.

VLA (Vision-Langage-Action) — VLM étendus pour produire des actions de robot. Prendre des images + des instructions linguistiques, émettre des commandes de contrôle (par exemple, positions des articulations, pince). Activez le contrôle de style « ramasser le bloc rouge ».

Modèles clés

OuvertVLA - 7B VLA open source, 970K démos
RT-2 / RT-X — La famille VLA de Google
Octobre — Politique de diffusion avec conditionnement linguistique
RoboFlamant — VLM basé sur OpenFlamingo pour les robots

Ressources connexes

Modèles VLA et VLM open source — Catalogue complet avec liens
Ensembles de données — Données de manipulation étiquetées en langage