VLA et VLM
Modèles Vision-Langage-Action et Vision-Langage - contrôle de robot conditionné par le langage.
Que sont VLA et VLM ?
VLM (Modèle Vision-Langage) — Des modèles multimodaux qui comprennent à la fois les images et le texte. Utilisé pour le sous-titrage, le VQA et la mise à la terre.
VLA (Vision-Langage-Action) — VLM étendus pour produire des actions de robot. Prendre des images + des instructions linguistiques, émettre des commandes de contrôle (par exemple, positions des articulations, pince). Activez le contrôle de style « ramasser le bloc rouge ».
Modèles clés
- OuvertVLA - 7B VLA open source, 970K démos
- RT-2 / RT-X — La famille VLA de Google
- Octobre — Politique de diffusion avec conditionnement linguistique
- RoboFlamant — VLM basé sur OpenFlamingo pour les robots
Ressources connexes
- Modèles VLA et VLM open source — Catalogue complet avec liens
- Ensembles de données — Données de manipulation étiquetées en langage