Évaluation des robots Google
Évaluation des manipulations dans le monde réel. Plus de 700 tâches, plusieurs incarnations de robots.
Aperçu
Le Google Robot Benchmark évalue les politiques appliquées à de vrais robots physiques sur plus de 700 tâches. Prend en charge WidowX et d'autres modes de réalisation. Les mesures incluent le taux de réussite, les performances multitâches et les connaissances linguistiques. Utilisé pour évaluer OpenVLA, RT-X et les modèles associés.
Résultats clés
- InternVLA-M1 : 71,7 % (WidowX), 76–81 % (autres modes de réalisation)
- OpenVLA : surpasse le RT-2-X de 16,5 % sur 29 tâches
En rapport
- BridgeData — Ensemble de données WidowX
- OuvertVLA — Évaluation du modèle