ओपनवीएलए
रोबोटिक हेरफेर के लिए ओपन-सोर्स विज़न-लैंग्वेज-एक्शन मॉडल। स्टैनफोर्ड, बर्कले, टीआरआई, गूगल डीपमाइंड, एमआईटी।
सिंहावलोकन
ओपनवीएलए एक 7बी-पैरामीटर विज़न-लैंग्वेज-एक्शन (वीएलए) मॉडल है जिसे ओपन एक्स-एम्बोडिमेंट से 970K वास्तविक दुनिया के रोबोट प्रदर्शनों पर प्रशिक्षित किया गया है। यह लामा 2 को फ़्यूज्ड विज़ुअल एनकोडर (DINOv2 + SigLIP) के साथ जोड़ता है और 7× कम मापदंडों के साथ RT-2-X (55B) से 16.5% बेहतर प्रदर्शन करता है।
वास्तुकला एवं प्रशिक्षण
- 7B पैरामीटर
- लामा 2 बैकबोन + DINOv2/SigLIP विज़ुअल एनकोडर
- 970K ओपन एक्स-एम्बोडिमेंट से डेमो
- मल्टी-रोबोट, शून्य-शॉट स्थानांतरण
- उपभोक्ता GPU पर LoRA फाइन-ट्यूनिंग
आधिकारिक लिंक
- openvla.github.io -परियोजना स्थल
- github.com/openvla/openvla - कोड और प्रशिक्षण
- आलिंगन चेहरा: openvla - मॉडल चौकियां
उद्धरण
CoRL 2025. BibTeX के लिए प्रोजेक्ट साइट देखें।