← النماذج

BridgeVLA

محاذاة المدخلات والمخرجات لتعلم فعال للتلاعب ثلاثي الأبعاد باستخدام نماذج لغة الرؤية.

ملخص

يقوم BridgeVLA بتدريب العمود الفقري VLM مسبقًا لالتقاط صور ثنائية الأبعاد كمدخلات وإنتاج خرائط حرارية ثنائية الأبعاد كمخرجات، ثم يقوم بضبطها أثناء عرض السحب النقطية في صور متعددة العرض. يتيح معالجة ثلاثية الأبعاد فعالة بأقل قدر من البيانات.

المعايير

  • رلبنش 88.2% (ارتفاعًا من 81.4%)
  • COLOSSEUM 64.0%
  • 10+ المهام 95.4% مع 3 مسارات فقط لكل مهمة

الروابط الرسمية

الاقتباس

NeurIPS 2025. راجع موقع مشروع BibTeX.