Benchmark de Robô Google

Avaliação de manipulação no mundo real. Mais de 700 tarefas, múltiplas encarnações de robôs.

Visão Geral

O Benchmark de Robô Google avalia políticas em robôs físicos reais em mais de 700 tarefas. Suporta WidowX e outras encarnações. As métricas incluem taxa de sucesso, desempenho em múltiplas tarefas e ancoragem linguística. Usado para avaliar OpenVLA, RT-X e modelos relacionados.

Resultados Chave

InternVLA-M1: 71,7% (WidowX), 76–81% (outras encarnações)
OpenVLA: Supera RT-2-X em 16,5% em 29 tarefas

Relacionado

BridgeData — Conjunto de dados WidowX
OpenVLA — Avaliação de modelo