Google Robot Benchmark
Evaluación de manipulación en el mundo real. Más de 700 tareas, múltiples encarnaciones de robots.
Resumen
El Google Robot Benchmark evalúa políticas en robots físicos reales a través de más de 700 tareas. Soporta WidowX y otras encarnaciones. Las métricas incluyen tasa de éxito, rendimiento en múltiples tareas y anclaje de lenguaje. Se utiliza para evaluar OpenVLA, RT-X y modelos relacionados.
Resultados Clave
- InternVLA-M1: 71.7% (WidowX), 76–81% (otras encarnaciones)
- OpenVLA: Supera a RT-2-X en un 16.5% en 29 tareas
Relacionado
- BridgeData — Conjunto de datos de WidowX
- OpenVLA — Evaluación de modelo