रोबोटों के लिए अनुकरण सीखना: एक व्यावहारिक मार्गदर्शिका

रोबोटों को कुशल हेरफेर कौशल सिखाने के लिए नकल सीखना प्रमुख प्रतिमान के रूप में उभरा है। पुरस्कार कार्यों को हाथ से तैयार करने या गति योजनाएं लिखने के बजाय, आप बस रोबोट को दिखाते हैं कि क्या करना है। यह मार्गदर्शिका बताती है कि यह कैसे काम करती है, किस एल्गोरिदम का उपयोग करना है, और परिणाम प्राप्त करने के लिए आपको किस बुनियादी ढांचे की आवश्यकता है।

अनुकरण सीखना क्या है?

नकल सीखना (आईएल) - जिसे प्रदर्शन से सीखना (एलएफडी) या व्यवहारिक क्लोनिंग भी कहा जाता है - एक मानव ऑपरेटर से प्राप्त कार्यों को दोहराने के लिए एक नीति को प्रशिक्षित करता है। डेटा संग्रह के दौरान, एक कुशल प्रदर्शक लक्ष्य कार्य के माध्यम से रोबोट को टेलीप्रैट करता है जबकि सेंसर संयुक्त स्थिति, अंत-प्रभावक पोज़, कैमरा फ्रेम और किसी भी अन्य प्रासंगिक स्थिति को रिकॉर्ड करते हैं। वह रिकॉर्ड किया गया डेटा तंत्रिका नेटवर्क नीति के लिए प्रशिक्षण सेट बन जाता है।

सुदृढीकरण सीखने पर आईएल की अपील व्यावहारिक है: आपको एक इनाम सिग्नल को इंजीनियर करने, लाखों सिम्युलेटेड रोलआउट चलाने या विरल-इनाम अन्वेषण समस्या को हल करने की आवश्यकता नहीं है। यदि कोई मनुष्य कार्य कर सकता है, तो रोबोट संभावित रूप से इसे कुछ सौ से लेकर कुछ हज़ार प्रदर्शनों में सीख सकता है। चुनौती सामान्यीकरण है - संकीर्ण प्रदर्शनों पर प्रशिक्षित नीतियां विफल हो सकती हैं जब वस्तु की स्थिति, प्रकाश व्यवस्था, या कार्य भिन्नताएं प्रशिक्षण वितरण से भिन्न होती हैं।

आधुनिक आईएल अनुसंधान बेहतर आर्किटेक्चर, बड़े और अधिक विविध डेटासेट और पूर्व-प्रशिक्षित दृश्य प्रतिनिधित्व के माध्यम से इसे संबोधित करता है। 2023 के बाद से यह क्षेत्र तेजी से आगे बढ़ा है, और उत्पादन-गुणवत्ता की नकल सीखना अब रोबोटिक्स पीएचडी कार्यक्रम तक पहुंच के बिना टीमों की पहुंच के भीतर है।

अधिनियम: ट्रांसफार्मर के साथ एक्शन चंकिंग

स्टैनफोर्ड के ALOHA द्वि-मैनुअल रोबोट प्लेटफ़ॉर्म के साथ पेश किया गया ACT, रोबोट नियंत्रण को अनुक्रम भविष्यवाणी समस्या के रूप में मानता है। नीति एक अगली कार्रवाई के बजाय भविष्य की कार्रवाइयों के एक हिस्से की भविष्यवाणी करती है - आम तौर पर 50-100 टाइमस्टेप। यह क्रिया चंकिंग कंपाउंडिंग त्रुटि को कम करती है, जो कि अनुभवहीन व्यवहार क्लोनिंग का मुख्य विफलता मोड है जहां छोटी भविष्यवाणी की गलतियाँ एक प्रक्षेपवक्र पर जमा होती हैं।

ACT मानव प्रदर्शनों की बहुविधता को पकड़ने के लिए प्रशिक्षण के दौरान CVAE (कंडीशनल वेरिएशनल ऑटोएन्कोडर) का उपयोग करता है - तथ्य यह है कि किसी कार्य को पूरा करने के लिए अक्सर एक से अधिक सही तरीके होते हैं। अनुमान के समय, डिकोडर वर्तमान कैमरा अवलोकनों और संयुक्त स्थिति पर वातानुकूलित क्रिया अनुक्रम उत्पन्न करता है। परिणाम एक ऐसी नीति है जो मोड-एवरेजिंग कलाकृतियों के बिना मानव-प्रदर्शित कार्यों में प्राकृतिक भिन्नता को संभालती है।

ACT द्वि-मैन्युअल हेरफेर कार्यों के लिए एक मजबूत प्रारंभिक बिंदु है। इसके लिए अपेक्षाकृत मामूली डेटा वॉल्यूम (प्रति कार्य 50-200 प्रदर्शन) की आवश्यकता होती है और घंटों में एक ही जीपीयू पर ट्रेन की आवश्यकता होती है। यदि आप ALOHA हार्डवेयर या समान द्वि-मैनुअल सेटअप के साथ काम कर रहे हैं, तो ACT आपका प्रयास करने वाला पहला एल्गोरिदम होना चाहिए। एसवीआरसी का डेटा सेवाएँ ALOHA-क्लास प्लेटफ़ॉर्म पर एकत्रित पूर्व-संसाधित ACT-संगत डेटासेट शामिल करें।

प्रसार नीति: मल्टीमॉडल एक्शन डिस्ट्रीब्यूशन को संभालना

डिफ्यूजन पॉलिसी स्कोर-मिलान डिफ्यूजन मॉडल लागू करती है - मॉडल का वही वर्ग जो छवियों के लिए स्थिर डिफ्यूजन को शक्ति प्रदान करता है - रोबोट एक्शन स्पेस में। किसी एक सर्वोत्तम कार्रवाई की भविष्यवाणी करने के बजाय, नीति उन कार्यों का पूर्ण वितरण सीखती है जो एक मानव प्रदर्शनकारी कर सकता है। अनुमान के समय यह उस वितरण से उच्च-गुणवत्ता वाली कार्रवाई का नमूना लेने के लिए एक डीनोइज़िंग प्रक्रिया चलाता है।

ACT की तुलना में मुख्य लाभ यह है कि यह मल्टीमॉडल कार्यों को कैसे संभालता है: ऐसे परिदृश्य जहां एक मानव किसी वस्तु को बाएं या दाएं से पकड़ सकता है, या कई वैध कोणों से लक्ष्य तक पहुंच सकता है। मानक व्यवहार क्लोनिंग इन तरीकों को एक साथ औसत करती है, जिससे एक ऐसी नीति तैयार होती है जो बीच में ही नीचे चली जाती है और विफल हो जाती है। वर्तमान संदर्भ को देखते हुए सही मोड से प्रसार नीति के नमूने, अस्पष्ट कार्यों पर अधिक मजबूत व्यवहार उत्पन्न करते हैं।

ट्रेडऑफ़ अनुमान गति है। यूनेट बैकबोन के साथ प्रसार नीति के लिए डिफ़ॉल्ट रूप से अनुमान के लिए 100 डीनोइज़िंग चरणों की आवश्यकता होती है, जो वास्तविक समय नियंत्रण के लिए बहुत धीमी हो सकती है। डीडीआईएम सैंपलर और कंसिस्टेंसी डिस्टिलेशन वेरिएंट इसे 10-25 चरणों तक कम कर देते हैं, जिससे वास्तविक समय में संचालन व्यवहार्य हो जाता है। डेटा आवश्यकताओं के लिए, प्रसार नीति आमतौर पर ACT की तुलना में अधिक प्रदर्शनों से लाभान्वित होती है, लेकिन कच्ची मात्रा की तुलना में डेटासेट विविधता को अधिक पुरस्कृत करती है।

विज़न-लैंग्वेज-एक्शन मॉडल: स्केल पर आईएल

ओपनवीएलए, पीआई0 और आरटी-2 जैसे वीएलए रोबोट प्रदर्शनों को ठीक करने से पहले इंटरनेट-स्केल दृश्य और भाषा डेटा पर पूर्व-प्रशिक्षण द्वारा नकल सीखने का विस्तार करते हैं। पूर्व-प्रशिक्षित बैकबोन वस्तुओं, दृश्यों और रिश्तों का एक समृद्ध प्रतिनिधित्व प्रदान करता है जो रोबोट हेरफेर में शक्तिशाली रूप से स्थानांतरित होता है। फ़ाइन-ट्यूनिंग के लिए शुरुआत से प्रशिक्षण की तुलना में बहुत कम प्रदर्शनों की आवश्यकता होती है - कभी-कभी 10-50 कार्य-विशिष्ट उदाहरणों तक।

उन टीमों के लिए जो गणना और लाइसेंसिंग आवश्यकताओं को वहन कर सकती हैं, वीएलए आईएल प्रदर्शन की वर्तमान सीमा का प्रतिनिधित्व करते हैं। वे नवीन वस्तुओं, नए परिवेशों और भाषा-निर्दिष्ट कार्य विविधताओं का बेहतर सामान्यीकरण करते हैं। एसवीआरसी फाइन-ट्यूनिंग डेटासेट प्रदान करता है और टेलीऑपरेशन इंफ्रास्ट्रक्चर प्रमुख वीएलए प्रशिक्षण पाइपलाइनों द्वारा अपेक्षित डेटा प्रारूपों के साथ संगत। हमारा देखें वीएलए मॉडल व्याख्या गाइड गहन तकनीकी खराबी के लिए.

अनुकरण सीखने के लिए डेटा आवश्यकताएँ

एकल हेरफेर कार्य के लिए न्यूनतम व्यवहार्य डेटासेट आमतौर पर ACT के लिए 50 प्रदर्शन, प्रसार नीति के लिए 100-200, और VLA फाइन-ट्यूनिंग के लिए 20-50 है। ये अनुकूल परिस्थितियों में फर्श का अनुमान हैं - लगातार प्रकाश व्यवस्था, निश्चित कैमरा दृष्टिकोण और पूर्वानुमानित स्थिति में वस्तुएं। वास्तविक-विश्व परिनियोजन के लिए आपके सिस्टम द्वारा उत्पादन में आने वाली भिन्नता को कवर करने के लिए 3-5 गुना अधिक डेटा की आवश्यकता होती है।

डेटा की गुणवत्ता उतनी ही मायने रखती है जितनी मात्रा। प्रदर्शनों को कुशल ऑपरेटरों द्वारा एकत्र किया जाना चाहिए जो कार्य को लगातार और सफाई से पूरा करते हैं। असफल प्रयास, झिझक और सुधार जो प्रशिक्षण सेट में सफलताओं के रूप में दर्ज होते हैं, नीति प्रदर्शन को ख़राब कर देंगे। एसवीआरसी का प्रबंधित डेटा संग्रह सेवा प्रशिक्षित ऑपरेटर, गुणवत्ता-फ़िल्टर किए गए एपिसोड चयन और संरचित डेटासेट पैकेजिंग प्रदान करता है - आपकी इंजीनियरिंग टीम के डेटा पाइपलाइन कार्य के हफ्तों की बचत।

सेंसर विविधता भी महत्वपूर्ण है. एकल कलाई कैमरे पर प्रशिक्षित नीतियाँ अक्सर तब विफल हो जाती हैं जब वह कैमरा बंद हो जाता है। सबसे अच्छा अभ्यास कम से कम दो कैमरा दृष्टिकोण से एकत्र करना है - एक निश्चित ओवरहेड या साइड व्यू और एक कलाई पर लगाया गया - और दृश्य अवलोकनों के साथ-साथ प्रोप्रियोसेप्टिव स्थिति (संयुक्त कोण और वेग) भी शामिल करें।

आईएल रिसर्च के लिए हार्डवेयर और इंफ्रास्ट्रक्चर

एक अनुकरण शिक्षण अनुसंधान परियोजना के लिए न्यूनतम हार्डवेयर स्टैक में शामिल हैं: आपके कार्य के लिए पर्याप्त स्वतंत्रता के साथ एक रोबोट बांह (सामान्य हेरफेर के लिए कम से कम 6-डीओएफ), डेटा संग्रह के लिए एक लीडर-फॉलोअर या वीआर-आधारित टेलीऑपरेशन सिस्टम, दो या अधिक कैमरे, और कम से कम एक एनवीआईडीआईए जीपीयू (आरटीएक्स 3090 या एसीटी/डिफ्यूजन पॉलिसी के लिए बेहतर; वीएलए फाइन-ट्यूनिंग के लिए अनुशंसित ए100 या एच100) के साथ एक वर्कस्टेशन।

एसवीआरसी का हार्डवेयर कैटलॉग इसमें ओपनआर्म प्लेटफ़ॉर्म शामिल है, जो एक संगत टेलीऑपरेशन लीडर आर्म और मानक कैमरा कॉन्फ़िगरेशन के लिए माउंटिंग हार्डवेयर के साथ आता है। एसवीआरसी मंच सॉफ़्टवेयर परत प्रदान करता है: एपिसोड रिकॉर्डिंग, डेटासेट प्रबंधन, नीति प्रशिक्षण पाइपलाइन और मूल्यांकन टूलींग। टीमें इसके माध्यम से अल्पकालिक परियोजनाओं के लिए हार्डवेयर खरीदने के बजाय पट्टे पर ले सकती हैं रोबोट लीजिंग कार्यक्रम, जो अक्सर कार्यशील आईएल प्रोटोटाइप के लिए सबसे तेज़ पथ होता है।

उन टीमों के लिए जो हार्डवेयर में निवेश करने से पहले डेटा के साथ शुरुआत करना चाहते हैं, एसवीआरसी हमारी पालो ऑल्टो सुविधा में एकत्र किए गए क्यूरेटेड मल्टी-टास्क प्रदर्शन डेटासेट तक पहुंच प्रदान करता है। ये डेटासेट सामान्य हेरफेर आदिमों को कवर करते हैं - चुनना, रखना, डालना, मोड़ना, असेंबली - और एसीटी, डिफ्यूजन पॉलिसी और हगिंग फेस लेरोबोट के साथ सीधे उपयोग के लिए स्वरूपित किए जाते हैं। हमारी टीम से संपर्क करें डेटासेट एक्सेस विकल्पों पर चर्चा करने के लिए।

संबंधित: वीएलए मॉडल की व्याख्या · रोबोट लर्निंग के लिए प्रसार नीति · अलोहा रोबोट गाइड · डेटा सेवाएँ · रोबोट प्रशिक्षण डेटा क्या है?