Google Robot Benchmark
Bewertung realer Manipulationen. Über 700 Aufgaben, mehrere Roboterausführungen.
Überblick
Der Google Robot Benchmark bewertet Richtlinien für echte physische Roboter für mehr als 700 Aufgaben. Unterstützt WidowX und andere Ausführungsformen. Zu den Kennzahlen gehören Erfolgsquote, Multitasking-Leistung und Sprachkenntnisse. Wird zur Evaluierung von OpenVLA, RT-X und verwandten Modellen verwendet.
Wichtigste Ergebnisse
- InternVLA-M1: 71,7 % (WidowX), 76–81 % (andere Ausführungsformen)
- OpenVLA: Übertrifft RT-2-X um 16,5 % bei 29 Aufgaben
Verwandt
- BridgeData – WidowX-Datensatz
- OpenVLA — Modellbewertung