Google Robot Benchmark

Evaluación de manipulación en el mundo real. Más de 700 tareas, múltiples encarnaciones de robots.

Resumen

El Google Robot Benchmark evalúa políticas en robots físicos reales a través de más de 700 tareas. Soporta WidowX y otras encarnaciones. Las métricas incluyen tasa de éxito, rendimiento en múltiples tareas y anclaje de lenguaje. Se utiliza para evaluar OpenVLA, RT-X y modelos relacionados.

Resultados Clave

InternVLA-M1: 71.7% (WidowX), 76–81% (otras encarnaciones)
OpenVLA: Supera a RT-2-X en un 16.5% en 29 tareas

Relacionado

BridgeData — Conjunto de datos de WidowX
OpenVLA — Evaluación de modelo