בנצ'מרק רובוט של גוגל

הערכת מניפולציות בעולם האמיתי. 700+ משימות, התגלמויות רובוטים מרובות.

סקירה כללית

ה-Google Robot Benchmark מעריך מדיניות לגבי רובוטים פיזיים אמיתיים על פני 700+ משימות. תומך ב-WidowX והתגלמויות אחרות. המדדים כוללים אחוזי הצלחה, ביצועים מרובים משימות ובסיס שפה. משמש להערכת OpenVLA, RT-X ומודלים קשורים.

תוצאות מפתח

InternVLA-M1: 71.7% (WidowX), 76-81% (התגלמויות אחרות)
OpenVLA: מתעלה על RT-2-X ב-16.5% ב-29 משימות

קָשׁוּר

BridgeData - מערך נתונים של WidowX
OpenVLA - הערכת מודל