ओपनवीएलए

रोबोटिक हेरफेर के लिए ओपन-सोर्स विज़न-लैंग्वेज-एक्शन मॉडल। स्टैनफोर्ड, बर्कले, टीआरआई, गूगल डीपमाइंड, एमआईटी।

सिंहावलोकन

ओपनवीएलए एक 7बी-पैरामीटर विज़न-लैंग्वेज-एक्शन (वीएलए) मॉडल है जिसे ओपन एक्स-एम्बोडिमेंट से 970K वास्तविक दुनिया के रोबोट प्रदर्शनों पर प्रशिक्षित किया गया है। यह लामा 2 को फ़्यूज्ड विज़ुअल एनकोडर (DINOv2 + SigLIP) के साथ जोड़ता है और 7× कम मापदंडों के साथ RT-2-X (55B) से 16.5% बेहतर प्रदर्शन करता है।

वास्तुकला एवं प्रशिक्षण

7B पैरामीटर
लामा 2 बैकबोन + DINOv2/SigLIP विज़ुअल एनकोडर
970K ओपन एक्स-एम्बोडिमेंट से डेमो
मल्टी-रोबोट, शून्य-शॉट स्थानांतरण
उपभोक्ता GPU पर LoRA फाइन-ट्यूनिंग

आधिकारिक लिंक

openvla.github.io -परियोजना स्थल
github.com/openvla/openvla - कोड और प्रशिक्षण
आलिंगन चेहरा: openvla - मॉडल चौकियां

उद्धरण

CoRL 2025. BibTeX के लिए प्रोजेक्ट साइट देखें।