Google ロボット ベンチマーク
現実世界の操作評価。 700 以上のタスク、複数のロボットの実施形態。
概要
Google ロボット ベンチマークは、700 以上のタスクにわたって実際の物理ロボットに関するポリシーを評価します。 WidowX および他の実施形態をサポートします。 指標には、成功率、マルチタスクのパフォーマンス、言語の基礎などが含まれます。 OpenVLA、RT-X、および関連モデルの評価に使用されます。
主な結果
- InternVLA-M1: 71.7% (WidowX)、76〜81% (他の実施形態)
- OpenVLA: 29 タスクで RT-2-X を 16.5% 上回るパフォーマンス