BridgeVLA

יישור קלט-פלט ללמידה יעילה של מניפולציה תלת-ממדית עם מודלים של חזון-שפה.

סקירה כללית

BridgeVLA מכשירה מראש עמוד שדרה של VLM לצלם תמונות דו-ממדיות כקלט ולייצר מפות חום דו-ממדיות כפלט, ולאחר מכן מכוונן עדין תוך הקרנת ענני נקודות לתמונות מרובות תצוגה. מאפשר מניפולציה תלת מימדית יעילה עם נתונים מינימליים.

אמות מידה

RLBench 88.2% (עלייה מ-81.4%)
COLOSSEUM 64.0%
10+ משימות 95.4% עם 3 מסלולים בלבד למשימה

קישורים רשמיים

bridgevla.github.io - אתר הפרויקט
OpenReview - נייר NeurIPS 2025

צִיטָטָה

NeurIPS 2025. עיין באתר הפרויקט עבור BibTeX.