← मॉडल

ओपनवीएलए

रोबोटिक हेरफेर के लिए ओपन-सोर्स विज़न-लैंग्वेज-एक्शन मॉडल। स्टैनफोर्ड, बर्कले, टीआरआई, गूगल डीपमाइंड, एमआईटी।

सिंहावलोकन

ओपनवीएलए एक 7बी-पैरामीटर विज़न-लैंग्वेज-एक्शन (वीएलए) मॉडल है जिसे ओपन एक्स-एम्बोडिमेंट से 970K वास्तविक दुनिया के रोबोट प्रदर्शनों पर प्रशिक्षित किया गया है। यह लामा 2 को फ़्यूज्ड विज़ुअल एनकोडर (DINOv2 + SigLIP) के साथ जोड़ता है और 7× कम मापदंडों के साथ RT-2-X (55B) से 16.5% बेहतर प्रदर्शन करता है।

वास्तुकला एवं प्रशिक्षण

  • 7B पैरामीटर
  • लामा 2 बैकबोन + DINOv2/SigLIP विज़ुअल एनकोडर
  • 970K ओपन एक्स-एम्बोडिमेंट से डेमो
  • मल्टी-रोबोट, शून्य-शॉट स्थानांतरण
  • उपभोक्ता GPU पर LoRA फाइन-ट्यूनिंग

आधिकारिक लिंक

उद्धरण

CoRL 2025. BibTeX के लिए प्रोजेक्ट साइट देखें।