BridgeVLA

محاذاة المدخلات والمخرجات لتعلم فعال للتلاعب ثلاثي الأبعاد باستخدام نماذج لغة الرؤية.

ملخص

يقوم BridgeVLA بتدريب العمود الفقري VLM مسبقًا لالتقاط صور ثنائية الأبعاد كمدخلات وإنتاج خرائط حرارية ثنائية الأبعاد كمخرجات، ثم يقوم بضبطها أثناء عرض السحب النقطية في صور متعددة العرض. يتيح معالجة ثلاثية الأبعاد فعالة بأقل قدر من البيانات.

المعايير

رلبنش 88.2% (ارتفاعًا من 81.4%)
COLOSSEUM 64.0%
10+ المهام 95.4% مع 3 مسارات فقط لكل مهمة

الروابط الرسمية

bridgevla.github.io - موقع المشروع
مراجعة مفتوحة - ورقة نيوروبس 2025

الاقتباس

NeurIPS 2025. راجع موقع مشروع BibTeX.