RoboFlamingo

Vision-Language Foundation-Modelle als effektive Roboter-Imitatoren. OpenFlamingo-basiert.

Überblick

RoboFlamingo baut auf OpenFlamingo auf und kombiniert ein einstufiges Vision-Sprachverständnis mit einem expliziten Richtlinienkopf für die sequentielle Robotersteuerung. Feinabstimmung durch Nachahmungslernen. Trainierbar auf einem einzelnen GPU-Server.

Architektur & Leistung

OpenFlamingo-Backbone (MPT-3B-, 4B-, 9B-Varianten)
Politischer Leiter für sequentielle Entscheidungsfindung
Stark im CALVIN-Benchmark
Steuerung im offenen Regelkreis, ressourcenschonender Einsatz

Offizielle Links

roboflamingo.github.io — Projektseite
github.com/RoboFlamingo/RoboFlamingo — Code (MIT)
Umarmendes Gesicht: robovlms/RoboFlamingo — Modelle

Zitat

BibTeX- und Papierreferenzen finden Sie auf der Projektseite.