בנצ'מרק רובוט של גוגל
הערכת מניפולציות בעולם האמיתי. 700+ משימות, התגלמויות רובוטים מרובות.
סקירה כללית
ה-Google Robot Benchmark מעריך מדיניות לגבי רובוטים פיזיים אמיתיים על פני 700+ משימות. תומך ב-WidowX והתגלמויות אחרות. המדדים כוללים אחוזי הצלחה, ביצועים מרובים משימות ובסיס שפה. משמש להערכת OpenVLA, RT-X ומודלים קשורים.
תוצאות מפתח
- InternVLA-M1: 71.7% (WidowX), 76-81% (התגלמויות אחרות)
- OpenVLA: מתעלה על RT-2-X ב-16.5% ב-29 משימות
קָשׁוּר
- BridgeData - מערך נתונים של WidowX
- OpenVLA - הערכת מודל