← Benchmarks

CALVIN

Komponieren von Aktionen aus Sprache und Vision – langfristige, sprachbedingte Manipulation.

Überblick

CALVIN bewertet sprachbedingte Manipulation über lange Zeithorizonte. Agenten müssen mehrere Fertigkeiten aus Anweisungen in natürlicher Sprache zusammenstellen. Simulationsbasiert. RoboFlamingo und andere VLM-basierte Richtlinien zeigen eine starke Leistung.

Offizielle Links