ओपनवीएलए बनाम ऑक्टो: कौन सा रोबोट लर्निंग मॉडल चुनना है?

विज़न-लैंग्वेज-एक्शन (वीएलए) मॉडल चुनने वाले शोधकर्ताओं और बिल्डरों के लिए एक व्यावहारिक तुलना।

वीएलए मॉडल धारणा + भाषा को क्रियाकलापों से जोड़ते हैं

इमेजिस भाषा कार्रवाई

दोनों ओपनवीएलए और अक्तूबर रोबोट सीखने के लिए ओपन-सोर्स विज़न-लैंग्वेज-एक्शन मॉडल हैं। यहां बताया गया है कि वे कैसे तुलना करते हैं और प्रत्येक का उपयोग कब करना है।

वास्तुकला

ओपनवीएलए प्रिज़मैटिक वीएलएम पर निर्माण करता है और एक्शन भविष्यवाणी शीर्ष जोड़ता है। यह कई रोबोट आकृतियों और एक्शन स्पेस का समर्थन करता है। अक्तूबर ओपन एक्स-एम्बोडिमेंट डेटा पर प्रशिक्षित ट्रांसफार्मर-आधारित आर्किटेक्चर का उपयोग करता है। दोनों छवियाँ + भाषा और आउटपुट क्रियाएँ लेते हैं।

प्रशिक्षण डेटा

ओपनवीएलए को ओपन एक्स-एम्बोडिमेंट और अतिरिक्त डेटासेट पर प्रशिक्षित किया जाता है। ऑक्टो को ओपन एक्स-एम्बोडिमेंट (आरटी-एक्स, ब्रिजडेटा, ड्रॉयड, आदि) पर प्रशिक्षित किया जाता है। दोनों को बड़े पैमाने पर, विविध रोबोट डेटा से लाभ होता है। हमारा देखें डेटासेट कैटलॉग डेटा स्रोतों के लिए.

फ़ाइन ट्यूनिंग

दोनों आपके रोबोट और कार्य पर फ़ाइन-ट्यूनिंग का समर्थन करते हैं। आमतौर पर 50-500 प्रदर्शनों से प्रदर्शन में उल्लेखनीय सुधार हो सकता है। OpenVLA विभिन्न प्रकार के रोबोटों के लिए चौकियाँ प्रदान करता है। ऑक्टो का आर्किटेक्चर नए एक्शन स्पेस के लिए लचीला है।

ओपनवीएलए कब चुनें

आपको सामान्य हेरफेर कार्यों पर मजबूत आउट-ऑफ़-द-बॉक्स प्रदर्शन की आवश्यकता है
आपका रोबोट ओपन एक्स-एम्बोडिमेंट (WidowX, ALOHA, आदि) के समान है।
आप एक अच्छी तरह से प्रलेखित, सक्रिय रूप से बनाए रखा गया मॉडल चाहते हैं

अक्टूबर कब चुनें

आप नवीन रोबोट आकृति विज्ञान के साथ प्रयोग कर रहे हैं
आप कस्टम एक्शन स्पेस के लिए अधिकतम लचीलापन चाहते हैं
आप सीधे ओपन एक्स-एम्बोडिमेंट डेटा पर निर्माण कर रहे हैं

फाइन-ट्यूनिंग के लिए डेटा संग्रह

आप जो भी मॉडल चुनें, आपको संभवतः कार्य-विशिष्ट प्रदर्शनों की आवश्यकता होगी। हम प्रस्ताव रखते हैं डेटा संग्रह सेवाएँ अनुकरण सीखने के लिए - टेलीऑपरेशन, सीखने के लिए तैयार फ़ॉर्मेटिंग, और क्यूए। तेजी से पुनरावृत्ति के लिए सैन फ्रांसिस्को में उसी दिन हार्डवेयर पिकअप।

सभी वीएलए मॉडल देखें →