جوجل روبوت المعيار
تقييم التلاعب في العالم الحقيقي. أكثر من 700 مهمة، وتجسيدات روبوتية متعددة.
ملخص
يقوم Google Robot Benchmark بتقييم السياسات المتعلقة بالروبوتات المادية الحقيقية عبر أكثر من 700 مهمة. يدعم WidowX والتجسيدات الأخرى. تشمل المقاييس معدل النجاح والأداء متعدد المهام والأساس اللغوي. يُستخدم لتقييم OpenVLA وRT-X والنماذج ذات الصلة.
النتائج الرئيسية
- InternVLA-M1: 71.7% (WidowX)، 76-81% (نماذج أخرى)
- OpenVLA: يتفوق على RT-2-X بنسبة 16.5% في 29 مهمة
متعلق ب
- بريدج داتا - مجموعة بيانات WidowX
- OpenVLA - التقييم النموذجي