RoboFlamingo
Vision-Language Foundation-Modelle als effektive Roboter-Imitatoren. OpenFlamingo-basiert.
Überblick
RoboFlamingo baut auf OpenFlamingo auf und kombiniert ein einstufiges Vision-Sprachverständnis mit einem expliziten Richtlinienkopf für die sequentielle Robotersteuerung. Feinabstimmung durch Nachahmungslernen. Trainierbar auf einem einzelnen GPU-Server.
Architektur & Leistung
- OpenFlamingo-Backbone (MPT-3B-, 4B-, 9B-Varianten)
- Politischer Leiter für sequentielle Entscheidungsfindung
- Stark im CALVIN-Benchmark
- Steuerung im offenen Regelkreis, ressourcenschonender Einsatz
Offizielle Links
- roboflamingo.github.io — Projektseite
- github.com/RoboFlamingo/RoboFlamingo — Code (MIT)
- Umarmendes Gesicht: robovlms/RoboFlamingo — Modelle
Zitat
BibTeX- und Papierreferenzen finden Sie auf der Projektseite.