Benchmark de Robô Google
Avaliação de manipulação no mundo real. Mais de 700 tarefas, múltiplas encarnações de robôs.
Visão Geral
O Benchmark de Robô Google avalia políticas em robôs físicos reais em mais de 700 tarefas. Suporta WidowX e outras encarnações. As métricas incluem taxa de sucesso, desempenho em múltiplas tarefas e ancoragem linguística. Usado para avaliar OpenVLA, RT-X e modelos relacionados.
Resultados Chave
- InternVLA-M1: 71,7% (WidowX), 76–81% (outras encarnações)
- OpenVLA: Supera RT-2-X em 16,5% em 29 tarefas
Relacionado
- BridgeData — Conjunto de dados WidowX
- OpenVLA — Avaliação de modelo