रोबोट फाउंडेशन मॉडल

विज़न-लैंग्वेज-एक्शन मॉडल की व्याख्या: कैसे वीएलए आधुनिक रोबोटों को शक्ति प्रदान करते हैं

विज़न-लैंग्वेज-एक्शन मॉडल GPT-4 के रोबोट समकक्ष हैं - बड़े पैमाने पर, पूर्व-प्रशिक्षित तंत्रिका नेटवर्क जिन्हें कई प्रकार के भौतिक कार्यों को करने के लिए ठीक किया जा सकता है। यह समझना कि वीएलए क्या हैं, वे कैसे काम करते हैं और उनका उपयोग कब करना है, किसी भी गंभीर रोबोटिक्स व्यवसायी के लिए अब आवश्यक ज्ञान है।

विजन-लैंग्वेज-एक्शन मॉडल क्या है?

विज़न-लैंग्वेज-एक्शन मॉडल (वीएलए) एक तंत्रिका नेटवर्क है जो इनपुट के रूप में दृश्य अवलोकन (कैमरा छवियां) और प्राकृतिक भाषा निर्देश लेता है, और रोबोट क्रियाओं को आउटपुट करता है - संयुक्त वेग, अंत-प्रभावक पोज़, या ग्रिपर कमांड। "दृष्टि-भाषा" भाग पूर्व-प्रशिक्षित रीढ़ को संदर्भित करता है: ये मॉडल सीएलआईपी या दृष्टि-भाषा मॉडल (वीएलएम) की तरह, छवि-पाठ जोड़े पर बड़े पैमाने पर इंटरनेट पूर्व-प्रशिक्षण से अपनी दृश्य और अर्थ संबंधी समझ प्राप्त करते हैं। "एक्शन" भाग रोबोट प्रदर्शन डेटा पर प्रशिक्षित फाइन-ट्यूनिंग हेड है।

मुख्य अंतर्दृष्टि यह है कि इंटरनेट डेटा पर पूर्व-प्रशिक्षण रोबोट रीढ़ को भौतिक दुनिया का एक समृद्ध प्रतिनिधित्व देता है - वस्तुएं क्या हैं, वे स्थानिक रूप से कैसे संबंधित हैं, और भाषा का क्या अर्थ है - इससे पहले कि उसने कभी रोबोट प्रदर्शन देखा हो। फ़ाइन-ट्यूनिंग फिर इस प्रतिनिधित्व को रोबोट के अवतार और लक्ष्य कार्यों के अनुसार अनुकूलित करती है। क्योंकि बैकबोन पहले से ही "नीला कप उठाओ" या "बाईं ओर दराज खोलें" को समझता है, मॉडल स्क्रैच से प्रशिक्षित नीति की तुलना में बहुत कम प्रदर्शनों के साथ नवीन वस्तुओं और कार्य वाक्यांशों को सामान्यीकृत कर सकता है।

आरटी-2: पहला बड़े पैमाने का वीएलए

2023 में Google DeepMind द्वारा जारी किया गया RT-2 (रोबोटिक्स ट्रांसफॉर्मर 2), पहला प्रदर्शन था जिसने दृष्टि-भाषा मॉडल को रोबोट नियंत्रण में स्केल करने से गुणात्मक रूप से नई क्षमताओं का उत्पादन किया। RT-2 ने एक साथ वेब डेटा और रोबोट प्रक्षेप पथ पर PaLI-X विज़न-भाषा मॉडल को ठीक किया, एक ऐसी नीति का निर्माण किया जो नए निर्देशों का पालन कर सकती है, वस्तु गुणों के बारे में तर्क कर सकती है, और उन वस्तुओं को सामान्यीकृत कर सकती है जिन्हें उसने रोबोट प्रदर्शनों में कभी नहीं देखा था - केवल इंटरनेट पर।

आरटी-2 ने दिखाया कि वीएलए विचार-श्रृंखला तर्क प्रदर्शन कर सकते हैं: "कुछ ऐसा लेने के लिए कहा गया जिसका उपयोग आप रिसाव को साफ करने के लिए कर सकते हैं," मॉडल ने दृश्य से एक स्पंज की पहचान की, बिना स्पष्ट रूप से स्पंज को सफाई के साथ जोड़ने के लिए कहा गया था। यह उभरती क्षमता - प्रशिक्षण वितरण से परे अर्थपूर्ण सामान्यीकरण - वह है जो वीएलए को क्लासिक अनुकरण सीखने की नीतियों से गुणात्मक रूप से अलग बनाती है। ट्रेडऑफ़ की गणना की जाती है: RT-2 55 बिलियन मापदंडों वाले मॉडल पर चलता है, जिसके लिए महत्वपूर्ण बुनियादी ढांचे की आवश्यकता होती है।

ओपनवीएलए: ओपन-सोर्स वीएलए फाइन-ट्यूनिंग

2024 में स्टैनफोर्ड और बर्कले शोधकर्ताओं द्वारा जारी ओपनवीएलए ने ओपन-सोर्स प्रिज़मैटिक वीएलएम (स्वयं एलएलएएमए पर आधारित) पर निर्माण करके और ओपन एक्स-एम्बोडिमेंट डेटासेट पर प्रशिक्षण देकर वीएलए फाइन-ट्यूनिंग का लोकतंत्रीकरण किया - 22 अलग-अलग अवतारों से रोबोट प्रदर्शनों का 970k-एपिसोड संग्रह। ओपनवीएलए शुरुआती बिंदु है जिसका उपयोग आज अधिकांश शोध टीमें करती हैं क्योंकि यह पूरी तरह से ओपन-सोर्स है, अच्छी तरह से प्रलेखित है, और मानक हेरफेर बेंचमार्क पर मजबूत प्रदर्शन प्राप्त करता है।

किसी कस्टम कार्य पर ओपनवीएलए को फाइन-ट्यून करने के लिए कम से कम 50-200 प्रदर्शनों, हगिंगफेस लेरोबोट सम्मेलनों के साथ स्वरूपित एक डेटासेट और कई घंटों के प्रशिक्षण के लिए एक एकल 80 जीबी ए100 या एच100 जीपीयू की आवश्यकता होती है। परिणामी नीति पूर्व-प्रशिक्षित विज़ुअल बैकबोन के सौजन्य से, प्रशिक्षण में नहीं देखी गई दृश्य विविधताओं और नवीन वस्तु स्थितियों को सामान्य बनाने में आश्चर्यजनक रूप से सक्षम है। एसवीआरसी का डेटा संग्रह सेवा LeRobot-संगत प्रारूप में डेटासेट तैयार करता है, जो बॉक्स से बाहर OpenVLA फ़ाइन-ट्यूनिंग के लिए तैयार है।

pi0: फिजिकल इंटेलिजेंस की सामान्यवादी नीति

pi0, फिजिकल इंटेलिजेंस (pi.ai) से, VLA विकास की व्यावसायिक सीमा का प्रतिनिधित्व करता है। OpenVLA के विपरीत, जो एक भाषा मॉडल बैकबोन को विरासत में मिला है, pi0 एक फ्लो-मैचिंग एक्शन हेड का उपयोग करता है जो निरंतर, सुचारू कार्रवाई प्रक्षेपवक्र उत्पन्न करता है - अलग-अलग टोकनयुक्त क्रियाओं की तुलना में निपुण कार्यों के लिए अधिक उपयुक्त है। pi0 को दर्जनों कार्यों और हार्डवेयर प्लेटफार्मों पर 10,000 घंटे से अधिक के रोबोट प्रदर्शन के मालिकाना डेटासेट पर प्रशिक्षित किया गया था।

pi0 को वास्तुशिल्प रूप से जो अलग करता है वह "धीमी" भाषा-वातानुकूलित तर्क मार्ग और "तेज" प्रतिक्रियाशील मोटर नियंत्रण मार्ग के बीच अलगाव है। यह दोहरे प्रक्रिया नियंत्रण प्रणालियों के बारे में संज्ञानात्मक विज्ञान की अंतर्दृष्टि को प्रतिबिंबित करता है। उच्च-स्तरीय योजना तैयार करने के लिए धीमा मार्ग कार्य निर्देश और वर्तमान दृश्य को संसाधित करता है; तेज़ मार्ग कम-विलंबता मोटर कमांड उत्पन्न करता है। परिणाम एक ऐसी नीति है जो लंबी-क्षितिज तर्क और उच्च-आवृत्ति प्रतिक्रियाशील नियंत्रण दोनों को संभाल सकती है - कपड़े धोने जैसे कार्यों के लिए द्वार खोलना, जहां दोनों की एक साथ आवश्यकता होती है।

व्यावसायिक परिनियोजन के लिए pi0 तक पहुंच फिजिकल इंटेलिजेंस के एंटरप्राइज प्रोग्राम के माध्यम से उपलब्ध है। pi0-शैली आर्किटेक्चर की खोज करने वाली टीमों के लिए, SVRC मानक मानक हेरफेर सुइट्स पर प्रवाह-मिलान नीतियों का मूल्यांकन शामिल करें, जो आपको प्रशिक्षण चलाने से पहले अपेक्षित प्रदर्शन के लिए एक संदर्भ बिंदु देता है।

वीएलए क्लासिक नकल सीखने की नीतियों से कैसे भिन्न हैं

क्लासिक आईएल नीतियां - एसीटी, डिफ्यूजन पॉलिसी, बीसी-जेड - पूरी तरह से रोबोट प्रदर्शन डेटा से सीखें। उनके दृश्य प्रतिनिधित्व खरोंच से या एक संकीर्ण पूर्व-प्रशिक्षित एनकोडर (जैसे आर 3 एम या एमवीपी) से सीखे जाते हैं। वे अपने प्रशिक्षण वितरण में अच्छी तरह से सामान्यीकरण करते हैं लेकिन नई वस्तुओं, प्रकाश परिवर्तन, या लक्ष्य को दोबारा परिभाषित करने वाले कार्य निर्देशों के साथ संघर्ष करते हैं। किसी दिए गए प्रदर्शन स्तर को प्राप्त करने के लिए उन्हें अधिक प्रदर्शनों की भी आवश्यकता होती है क्योंकि उनमें पूर्व-प्रशिक्षण द्वारा प्रदान की जाने वाली अर्थ संबंधी कमी होती है।

वीएलए सामान्यीकरण के लिए गणना का व्यापार करते हैं। GPU पर एक क्लासिक ACT नीति में प्रति अनुमान पैसे खर्च होते हैं; 7बी-पैरामीटर मॉडल पर एक वीएलए अनुमान चरण की लागत परिमाण के ऑर्डर से अधिक होती है। ऐसे कार्यों के लिए जिन्हें विभिन्न परिवेशों और निर्देशों में व्यापक रूप से सामान्यीकृत करने की आवश्यकता होती है, वीएलए जीतते हैं। एक संकीर्ण रूप से परिभाषित, दोहराव वाले औद्योगिक कार्य के लिए जहां आपके पास 1,000+ प्रदर्शन हैं और आप पर्यावरण को समायोजित कर सकते हैं, एक क्लासिक नीति अक्सर कम लागत पर बेहतर गति और विश्वसनीयता प्राप्त करती है। व्यावहारिक निर्णय रूपरेखा: यदि आपके कार्य को सामान्यीकरण की आवश्यकता है, तो वीएलए बैकबोन से शुरुआत करें। यदि यह संकीर्ण और उच्च-थ्रूपुट है, तो क्लासिक नीति को अनुकूलित करें।

एसवीआरसी डेटा के साथ वीएलए को फाइन-ट्यूनिंग करना

एसवीआरसी वीएलए फाइन-ट्यूनिंग परियोजनाओं के लिए शुरू से अंत तक सहायता प्रदान करता है। हमारा टेलीऑपरेशन इंफ्रास्ट्रक्चर 50Hz पर सिंक्रोनाइज़्ड मल्टी-कैमरा वीडियो, प्रोप्रियोसेप्टिव स्टेट और एक्शन लेबल के साथ RLDS/LeRobot फॉर्मेट में प्रदर्शन कैप्चर करता है। हमारी डेटासेट पाइपलाइनों में एपिसोड गुणवत्ता फ़िल्टरिंग (असफल प्रयासों और झिझक को दूर करना), कैमरा कैलिब्रेशन मेटाडेटा और कार्य निर्देश एनोटेशन शामिल हैं।

उन टीमों के लिए जिन्हें बड़े पैमाने पर कस्टम डेटा की आवश्यकता होती है, सैन फ्रांसिस्को सुविधा में हमारी प्रबंधित संग्रह सेवा हेरफेर कार्यों की लाइब्रेरी में प्रशिक्षित ऑपरेटरों के साथ प्रति दिन सैकड़ों प्रदर्शन तैयार कर सकती है। हम कार्य डिज़ाइन पर परामर्श भी प्रदान करते हैं - एक डेटासेट के लिए दायरे, भिन्नता अक्ष और सफलता मानदंड को परिभाषित करना जो वास्तव में एक सामान्यीकरण योग्य नीति को प्रशिक्षित करेगा। हमारी टीम से संपर्क करें अपने वीएलए फाइन-ट्यूनिंग प्रोजेक्ट पर चर्चा करने के लिए, या हमारे मौजूदा डेटासेट कैटलॉग का पता लगाने के लिए एसवीआरसी मंच.