RoboFlamant
Modèles de base Vision-Langage en tant qu'imitateurs efficaces de robots. Basé sur OpenFlamingo.
Aperçu
RoboFlamingo s'appuie sur OpenFlamingo pour combiner une compréhension du langage de vision en une seule étape avec une politique explicite pour le contrôle séquentiel des robots. Affiné via l'apprentissage par imitation. Entraîneable sur un seul serveur GPU.
Architecture & Performances
- Backbone OpenFlamingo (variantes MPT-3B, 4B, 9B)
- Responsable politique pour la prise de décision séquentielle
- Fort sur le benchmark CALVIN
- Contrôle en boucle ouverte, déploiement à faibles ressources
Liens officiels
- roboflamingo.github.io — Site du projet
- github.com/RoboFlamingo/RoboFlamingo — Code (AVEC)
- Visage câlin : robovlms/RoboFlamingo — Modèles
Citation
Voir le site du projet pour BibTeX et les références papier.