← דגמים

BridgeVLA

יישור קלט-פלט ללמידה יעילה של מניפולציה תלת-ממדית עם מודלים של חזון-שפה.

סקירה כללית

BridgeVLA מכשירה מראש עמוד שדרה של VLM לצלם תמונות דו-ממדיות כקלט ולייצר מפות חום דו-ממדיות כפלט, ולאחר מכן מכוונן עדין תוך הקרנת ענני נקודות לתמונות מרובות תצוגה. מאפשר מניפולציה תלת מימדית יעילה עם נתונים מינימליים.

אמות מידה

  • RLBench 88.2% (עלייה מ-81.4%)
  • COLOSSEUM 64.0%
  • 10+ משימות 95.4% עם 3 מסלולים בלבד למשימה

קישורים רשמיים

צִיטָטָה

NeurIPS 2025. עיין באתר הפרויקט עבור BibTeX.