वीएलए मॉडल क्या है?
विज़न-लैंग्वेज-एक्शन (वीएलए) मॉडल दृश्य अवलोकन और भाषा निर्देशों को इनपुट और सीधे आउटपुट रोबोट क्रियाओं के रूप में लेते हैं। वे रोबोट प्रदर्शन डेटा पर प्रशिक्षित मोटर नियंत्रण क्षमताओं के साथ दृष्टि-भाषा मॉडल (वीएलएम) की दृश्य समझ को जोड़ते हैं। इन्हें रोबोट नियंत्रण के लिए आधार मॉडल के रूप में सोचें।
प्रमुख वीएलए मॉडल की तुलना
आरटी-2 (गूगल डीपमाइंड): 55बी पैरामीटर, मजबूत सामान्यीकरण, सार्वजनिक रूप से उपलब्ध नहीं। ओपनवीएलए (स्टैनफोर्ड/बर्कले): 7बी पैरामीटर, ओपन-सोर्स, कस्टम डेटा पर फाइन-ट्यून करने योग्य। ऑक्टो (बर्कले): 93M पैरामीटर, तेज़ अनुमान, कई रोबोट अवतारों का समर्थन करता है। π₀ (शारीरिक बुद्धिमत्ता): प्रसार-आधारित वीएलए, मजबूत निपुण हेरफेर।
- सीमित गणना वाले अनुसंधान के लिए: अक्टूबर
- कस्टम कार्यों पर फ़ाइन-ट्यूनिंग के लिए: OpenVLA
- उच्चतम क्षमता के लिए: π₀ (यदि उपलब्ध हो)
परिनियोजन संबंधी विचार
वीएलए मॉडल को जीपीयू अनुमान की आवश्यकता होती है (आमतौर पर आरटीएक्स 3090 या बेहतर)। अनुमान विलंबता 50ms (अक्टूबर) से 500ms+ (OpenVLA 7B) तक होती है। एक्शन चंकिंग धीमी अनुमान और तेज़ नियंत्रण लूप के बीच अंतर को पाटने में मदद करता है। 50-200 कार्य-विशिष्ट प्रदर्शनों पर फ़ाइन-ट्यूनिंग आमतौर पर मजबूत परिणाम देती है। एसवीआरसी वीएलए विकास के लिए पूर्व-कॉन्फ़िगर वर्कस्टेशन प्रदान करता है।