Google Robot Benchmark

Bewertung realer Manipulationen. Über 700 Aufgaben, mehrere Roboterausführungen.

Überblick

Der Google Robot Benchmark bewertet Richtlinien für echte physische Roboter für mehr als 700 Aufgaben. Unterstützt WidowX und andere Ausführungsformen. Zu den Kennzahlen gehören Erfolgsquote, Multitasking-Leistung und Sprachkenntnisse. Wird zur Evaluierung von OpenVLA, RT-X und verwandten Modellen verwendet.

Wichtigste Ergebnisse

InternVLA-M1: 71,7 % (WidowX), 76–81 % (andere Ausführungsformen)
OpenVLA: Übertrifft RT-2-X um 16,5 % bei 29 Aufgaben

Verwandt

BridgeData – WidowX-Datensatz
OpenVLA — Modellbewertung