← मॉडल

ब्रिजवीएलए

दृष्टि-भाषा मॉडल के साथ कुशल 3डी हेरफेर सीखने के लिए इनपुट-आउटपुट संरेखण।

सिंहावलोकन

ब्रिजवीएलए एक वीएलएम बैकबोन को इनपुट के रूप में 2डी छवियों को लेने और आउटपुट के रूप में 2डी हीटमैप का उत्पादन करने के लिए पूर्व-प्रशिक्षित करता है, फिर बिंदु बादलों को मल्टी-व्यू छवियों में प्रोजेक्ट करते समय फाइन-ट्यून करता है। न्यूनतम डेटा के साथ कुशल 3डी हेरफेर सक्षम बनाता है।

मानक

  • आरएलबेंच 88.2% (81.4% से ऊपर)
  • COLOSSEUM 64.0%
  • 10+ कार्य 95.4% प्रति कार्य केवल 3 प्रक्षेप पथों के साथ

आधिकारिक लिंक

उद्धरण

NeurIPS 2025. BibTeX के लिए प्रोजेक्ट साइट देखें।