CALVIN
Komponieren von Aktionen aus Sprache und Vision – langfristige, sprachbedingte Manipulation.
Überblick
CALVIN bewertet sprachbedingte Manipulation über lange Zeithorizonte. Agenten müssen mehrere Fertigkeiten aus Anweisungen in natürlicher Sprache zusammenstellen. Simulationsbasiert. RoboFlamingo und andere VLM-basierte Richtlinien zeigen eine starke Leistung.
Offizielle Links
- github.com/mees/calvin – Code und Datensatz