ब्रिजवीएलए
दृष्टि-भाषा मॉडल के साथ कुशल 3डी हेरफेर सीखने के लिए इनपुट-आउटपुट संरेखण।
सिंहावलोकन
ब्रिजवीएलए एक वीएलएम बैकबोन को इनपुट के रूप में 2डी छवियों को लेने और आउटपुट के रूप में 2डी हीटमैप का उत्पादन करने के लिए पूर्व-प्रशिक्षित करता है, फिर बिंदु बादलों को मल्टी-व्यू छवियों में प्रोजेक्ट करते समय फाइन-ट्यून करता है। न्यूनतम डेटा के साथ कुशल 3डी हेरफेर सक्षम बनाता है।
मानक
- आरएलबेंच 88.2% (81.4% से ऊपर)
- COLOSSEUM 64.0%
- 10+ कार्य 95.4% प्रति कार्य केवल 3 प्रक्षेप पथों के साथ
आधिकारिक लिंक
- bridgevla.github.io -परियोजना स्थल
- ओपनरिव्यू - न्यूरआईपीएस 2025 पेपर
उद्धरण
NeurIPS 2025. BibTeX के लिए प्रोजेक्ट साइट देखें।