RoboFlamant

Modèles de base Vision-Langage en tant qu'imitateurs efficaces de robots. Basé sur OpenFlamingo.

Aperçu

RoboFlamingo s'appuie sur OpenFlamingo pour combiner une compréhension du langage de vision en une seule étape avec une politique explicite pour le contrôle séquentiel des robots. Affiné via l'apprentissage par imitation. Entraîneable sur un seul serveur GPU.

Architecture & Performances

Backbone OpenFlamingo (variantes MPT-3B, 4B, 9B)
Responsable politique pour la prise de décision séquentielle
Fort sur le benchmark CALVIN
Contrôle en boucle ouverte, déploiement à faibles ressources

Liens officiels

roboflamingo.github.io — Site du projet
github.com/RoboFlamingo/RoboFlamingo — Code (AVEC)
Visage câlin : robovlms/RoboFlamingo — Modèles

Citation

Voir le site du projet pour BibTeX et les références papier.