Тест роботов Google

Оценка манипуляций в реальном мире. 700+ задач, несколько вариантов робота.

Обзор

Google Robot Benchmark оценивает политику в отношении реальных физических роботов при выполнении более 700 задач. Поддерживает WidowX и другие варианты. Показатели включают в себя уровень успеха, производительность в режиме многозадачности и языковую подготовку. Используется для оценки OpenVLA, RT-X и связанных моделей.

Ключевые результаты

InternVLA-M1: 71,7% (WidowX), 76–81% (другие варианты реализации)
OpenVLA: превосходит RT-2-X на 16,5% в 29 задачах

Связанный

БриджДанные — Набор данных WidowX
OpenVLA — Оценка модели