ब्रिजवीएलए

दृष्टि-भाषा मॉडल के साथ कुशल 3डी हेरफेर सीखने के लिए इनपुट-आउटपुट संरेखण।

सिंहावलोकन

ब्रिजवीएलए एक वीएलएम बैकबोन को इनपुट के रूप में 2डी छवियों को लेने और आउटपुट के रूप में 2डी हीटमैप का उत्पादन करने के लिए पूर्व-प्रशिक्षित करता है, फिर बिंदु बादलों को मल्टी-व्यू छवियों में प्रोजेक्ट करते समय फाइन-ट्यून करता है। न्यूनतम डेटा के साथ कुशल 3डी हेरफेर सक्षम बनाता है।

मानक

आरएलबेंच 88.2% (81.4% से ऊपर)
COLOSSEUM 64.0%
10+ कार्य 95.4% प्रति कार्य केवल 3 प्रक्षेप पथों के साथ

आधिकारिक लिंक

bridgevla.github.io -परियोजना स्थल
ओपनरिव्यू - न्यूरआईपीएस 2025 पेपर

उद्धरण

NeurIPS 2025. BibTeX के लिए प्रोजेक्ट साइट देखें।