COLOSSEUM

大規模な実際のロボット操作ベンチマーク。多様なタスクと環境。

概要

COLOSSEUM は、複数の環境にわたる多様な操作タスクを備えた実際のロボットのベンチマークです。 VLA およびポリシーモデルの一般化と堅牢性を評価するために使用されます。 BridgeVLA は 64% の成功を収めています。