Évaluation des robots Google

Évaluation des manipulations dans le monde réel. Plus de 700 tâches, plusieurs incarnations de robots.

Aperçu

Le Google Robot Benchmark évalue les politiques appliquées à de vrais robots physiques sur plus de 700 tâches. Prend en charge WidowX et d'autres modes de réalisation. Les mesures incluent le taux de réussite, les performances multitâches et les connaissances linguistiques. Utilisé pour évaluer OpenVLA, RT-X et les modèles associés.

Résultats clés

InternVLA-M1 : 71,7 % (WidowX), 76–81 % (autres modes de réalisation)
OpenVLA : surpasse le RT-2-X de 16,5 % sur 29 tâches

Un rapport

BridgeData — Ensemble de données WidowX
OuvertVLA — Évaluation du modèle