अलोहा रोबोट: यह क्या है, यह कैसे काम करता है, और कैसे शुरू करें
ALOHA स्टैनफोर्ड विश्वविद्यालय का द्वि-मैन्युअल टेलीऑपरेशन प्लेटफ़ॉर्म है, जिसने पहली बार प्रदर्शित किया कि एक रोबोट कम संख्या में मानव प्रदर्शनों से - चिप्स का एक बैग खोलना, केबल बांधना, या खाना बनाना - जैसे कुशल दो-हाथ वाले हेरफेर कार्य सीख सकता है। यह अब दुनिया में सबसे व्यापक रूप से संदर्भित द्वि-मैनुअल अनुसंधान मंच है। यह मार्गदर्शिका बताती है कि ALOHA क्या है, यह कैसे काम करती है, और इसका उपयोग कैसे शुरू करें।
स्टैनफोर्ड मूल कहानी
ALOHA - बाइमैनुअल टेलीऑपरेशन के लिए एक कम लागत वाला ओपन-सोर्स हार्डवेयर सिस्टम - स्टैनफोर्ड की मोबाइल मैनिपुलेशन लैब में विकसित किया गया था और टोनी ज़ेड झाओ एट अल द्वारा पेपर "लर्निंग फाइन-ग्रेन्ड बिमैनुअल मैनिपुलेशन विद लो-कॉस्ट हार्डवेयर" में प्रकाशित किया गया था। 2023 में। केंद्रीय थीसिस उत्तेजक थी: प्रभावशाली निपुण हेरफेर करने के लिए आपको महंगे, मालिकाना रोबोट हार्डवेयर की आवश्यकता नहीं है। ALOHA ने चार ViperX 300 और WidowX 250 रोबोट हथियारों (दो प्रति पक्ष, एक टेलीऑपरेशन के लिए लीडर के रूप में और एक फॉलोअर के रूप में) का उपयोग किया, जिनकी कुल लागत 20,000 डॉलर से कम थी, जो कि ACT एल्गोरिथ्म के साथ मिलकर उन कार्यों को करने के लिए किया गया था, जिनके लिए पहले कई गुना अधिक लागत वाले कस्टम-इंजीनियर सिस्टम की आवश्यकता होती थी।
पेपर में कैंडी के एक टुकड़े को खोलना, एक स्लॉट में एक बैटरी डालना, और एक छेद के माध्यम से एक रस्सी को पिरोना सहित 10 द्वि-मैनुअल कार्यों का प्रदर्शन किया गया - 50 प्रदर्शनों का उपयोग करके 80% से ऊपर की सफलता दर के साथ। इन परिणामों ने रोबोटिक्स समुदाय को चौंका दिया, इसलिए नहीं कि कार्य नए थे, बल्कि लागत और डेटा दक्षता के कारण। ALOHA और ACT ने मिलकर सुलभ निपुण हेरफेर अनुसंधान के लिए एक नया मानदंड स्थापित किया और अनुवर्ती कार्य की एक लहर शुरू की जो आज भी जारी है।
ALOHA हार्डवेयर डिज़ाइन और सभी सॉफ़्टवेयर पूरी तरह से ओपन-सोर्स हैं। सामग्री का बिल, असेंबली निर्देश और ACT प्रशिक्षण कोड GitHub पर सार्वजनिक रूप से उपलब्ध हैं। इस खुलेपन ने ALOHA को वास्तविक मानक द्वि-मैनुअल अनुसंधान मंच बना दिया है, जिसके दुनिया भर में दर्जनों अनुसंधान समूह मूल डिज़ाइन के संस्करण चला रहे हैं। SVRC हमारे माध्यम से ALOHA श्रेणी के प्लेटफ़ॉर्म का समर्थन करता है डेटा सेवाएँ और हार्डवेयर लीजिंग कार्यक्रम.
हार्डवेयर आर्किटेक्चर: द्वि-मैनुअल लीडर-फ़ॉलोअर सेटअप
ALOHA प्रणाली में दो गतिक युग्म होते हैं, प्रत्येक भुजा के लिए एक। प्रत्येक जोड़ी में एक "लीडर" भुजा होती है - एक हल्की, पीछे की ओर ले जाने योग्य भुजा जिसे ऑपरेटर पकड़ता है और अपने हाथों से घुमाता है - और एक "अनुयायी" भुजा होती है जो वास्तविक समय में नेता की संयुक्त स्थिति को प्रतिबिंबित करती है। अनुयायी भुजा वास्तविक मैनिपुलेटर (ग्रिपर, टूल, या एंड-इफ़ेक्टर) को ले जाती है और भौतिक दुनिया के साथ बातचीत करती है। लीडर आर्म के पास कोई अंतिम-प्रभावक पेलोड आवश्यकता नहीं है क्योंकि इसे केवल बैक-ड्राइवेबल होना चाहिए और ऑपरेटर को टॉर्क फीडबैक प्रदान करना होगा।
द्वि-मैनुअल कॉन्फ़िगरेशन - दो पूर्ण नेता-अनुयायी जोड़े - वह है जो ALOHA को निपुण कार्यों के लिए विशिष्ट रूप से सक्षम बनाता है। मानव हाथ स्वभाव से द्वि-हाथ वाले होते हैं: एक हाथ वस्तु को पकड़ता है जबकि दूसरा उसमें हेरफेर करता है, या दोनों हाथ किसी कार्य को पूरा करने के लिए सहयोग करते हैं जिसके लिए एक साथ दो संपर्क बिंदुओं की आवश्यकता होती है। एकल-हाथ वाले रोबोट केवल जटिल फिक्स्चर या अनुक्रमण के साथ इन कार्यों का अनुमान लगा सकते हैं; द्विमान्य रोबोट उन्हें सीधे संभाल सकते हैं। ALOHA फॉर्म फैक्टर, दोनों भुजाओं को एक साझा टेबल फिक्स्चर पर स्थापित करके, टेबलटॉप हेरफेर कार्यों के लिए अनुकूलित किया गया है जहां ऑपरेटर सिस्टम के सामने बैठता है।
मूल ALOHA पेपर में कैमरा सेटअप में तीन कैमरों का उपयोग किया गया था: एक ओवरहेड (पूरे कार्यक्षेत्र का विहंगम दृश्य), एक बायीं कलाई पर, और एक दाहिनी कलाई पर। तीनों कैमरों का उपयोग ACT नीति के लिए दृश्य अवलोकन के रूप में किया जाता है। यह मल्टी-व्यू सेटअप महत्वपूर्ण है: कलाई के कैमरे पकड़ने और संपर्क की घटनाओं के नज़दीकी दृश्य प्रदान करते हैं, जबकि ओवरहेड कैमरा दो-हाथ के समन्वय के लिए वैश्विक संदर्भ प्रदान करता है। एकल-कैमरा ALOHA वेरिएंट समन्वय-भारी कार्यों पर औसत रूप से कम नीति प्रदर्शन दिखाते हैं।
अधिनियम: अलोहा के पीछे एल्गोरिथम
ACT (एक्शन चंकिंग विद ट्रांसफॉर्मर्स) को ALOHA के साथ विकसित किया गया था और यह प्लेटफ़ॉर्म के लिए प्राथमिक शिक्षण एल्गोरिदम है। एसीटी एक ट्रांसफॉर्मर-आधारित नकल सीखने की नीति है जो भविष्य की संयुक्त स्थितियों के एक हिस्से की भविष्यवाणी करती है - आम तौर पर 50 हर्ट्ज पर 100 टाइमस्टेप, 2 सेकंड की गति को कवर करती है - एक अगली कार्रवाई के बजाय। यह एक्शन चंकिंग आर्किटेक्चर अनुभवहीन व्यवहार क्लोनिंग की कंपाउंडिंग त्रुटि समस्या को काफी हद तक कम कर देता है, जहां प्रत्येक टाइमस्टेप पर छोटी भविष्यवाणी की गलतियाँ एक कार्य के दौरान बड़े प्रक्षेपवक्र विचलन में जमा हो जाती हैं।
ACT नीति आर्किटेक्चर प्रत्येक प्रदर्शन की अव्यक्त शैली को पकड़ने के लिए प्रशिक्षण के दौरान एक CVAE (कंडीशनल वेरिएशनल ऑटोएनकोडर) एनकोडर का उपयोग करता है - अनिवार्य रूप से, मानव ने कार्य को "कैसे" पूरा किया, इसका एक संपीड़ित प्रतिनिधित्व, कार्य के परिणाम "क्या" से अलग है। यह नीति को मोड-एवरेजिंग कलाकृतियों के बिना मानव प्रदर्शनों में प्राकृतिक भिन्नता को मॉडल करने में सक्षम बनाता है। अनुमान के समय, केवल सीवीएई डिकोडर चलता है, जो क्रिया खंड उत्पन्न करने के लिए वर्तमान अवलोकन और एक नमूना अव्यक्त वेक्टर पर आधारित होता है।
प्रति कार्य 50 प्रदर्शनों के साथ ALOHA डेटासेट पर प्रशिक्षण ACT में एकल RTX 3090 GPU पर 2-4 घंटे लगते हैं। मूल पेपर के साथ जारी किया गया प्रशिक्षण कोड, मानक ALOHA कार्यों के लिए प्रलेखित हाइपरपैरामीटर के साथ चलाना आसान है। कस्टम कार्यों के लिए, ट्यून करने के लिए सबसे प्रभावशाली हाइपरपैरामीटर चंक आकार (कॉन्फ़िगरेशन में kl_weight) है - बड़े हिस्से अप्रत्याशित गड़बड़ी के प्रति प्रतिक्रिया की कीमत पर अस्थायी स्थिरता में सुधार करते हैं। एसवीआरसी का प्लैटफ़ॉर्म इसमें ALOHA-प्रारूप डेटासेट के लिए पूर्व-कॉन्फ़िगर ACT प्रशिक्षण पाइपलाइन शामिल हैं।
मोबाइल अलोहा: अलोहा को मेज से उतारना
2024 में उसी स्टैनफोर्ड समूह द्वारा प्रकाशित मोबाइल ALOHA ने ALOHA अवधारणा को मोबाइल आधार तक विस्तारित किया। द्वि-मैनुअल आर्म सेटअप को एजाइलएक्स ट्रेसर मोबाइल बेस पर लगाया गया था, जो सिस्टम को एक स्थान के भीतर विभिन्न स्थानों पर नेविगेट करने में सक्षम बनाता था - एक रसोई काउंटर के पास जाना, एक डाइनिंग टेबल पर जाना, एक हॉलवे को नेविगेट करना - जबकि हेरफेर के लिए ALOHA हथियारों को बनाए रखना। मोबाइल ALOHA ने स्टोव पर झींगा पकाने, डिशवॉशर लोड करने और एक पैकेज वितरित करने जैसे कार्यों का प्रदर्शन किया - ऐसे कार्य जिनमें गति और निपुणता दोनों की आवश्यकता होती है।
मोबाइल ALOHA ने पूरे-बॉडी टेलीऑपरेशन की अवधारणा पेश की: ऑपरेटर मोबाइल बेस और दोनों भुजाओं को एक साथ नियंत्रित करता है, या तो अलग-अलग नियंत्रण इंटरफेस के माध्यम से या एक एकीकृत इंटरफ़ेस के माध्यम से जो ऑपरेटर के शरीर की गतिविधियों को रोबोट के पूरे-बॉडी कॉन्फ़िगरेशन में मैप करता है। मोबाइल ALOHA के लिए डेटा संग्रह टेबलटॉप ALOHA की तुलना में काफी अधिक जटिल है क्योंकि नीति को नेविगेशन और हेरफेर का समन्वय करना सीखना चाहिए, जिसके लिए ऐसे प्रदर्शनों की आवश्यकता होती है जो पर्यावरण में स्थानिक भिन्नता के साथ-साथ वस्तु भिन्नता को भी कवर करते हैं।
मोबाइल ALOHA ने सह-प्रशिक्षण भी शुरू किया: मोबाइल ALOHA नीति को मोबाइल हेरफेर प्रदर्शनों और स्थिर ALOHA हेरफेर प्रदर्शनों पर संयुक्त रूप से प्रशिक्षण देना। सह-प्रशिक्षण ने मोबाइल प्लेटफ़ॉर्म पर हेरफेर प्रदर्शन में सुधार किया, जिससे पता चला कि टेबलटॉप डेटा से द्वि-मैन्युअल हेरफेर ज्ञान मोबाइल संदर्भ में उपयोगी रूप से स्थानांतरित होता है। एसवीआरसी मोबाइल अलोहा-संगत डेटासेट प्रदान करता है और हमारी पालो ऑल्टो सुविधा में मोबाइल हेरफेर प्रदर्शन एकत्र कर सकता है। हमसे संपर्क करें आपकी मोबाइल ALOHA डेटा आवश्यकताओं पर चर्चा करने के लिए।
ALOHA, ALOHA 2 और वाणिज्यिक डेरिवेटिव के बीच अंतर
2024 के अंत में प्रकाशित ALOHA 2, कई आयामों में मूल से बेहतर हुआ: बेहतर पुनरावृत्ति के साथ उच्च गुणवत्ता वाले हथियार, एक बेहतर कैमरा माउंटिंग सिस्टम, और एक संशोधित कलाई डिजाइन जो केबल रूटिंग जटिलता को कम करता है। लंबे डेटा संग्रह सत्रों के दौरान विश्वसनीयता में सुधार करते हुए, डेज़ी-चेन वाली बिजली केबलों के बजाय एक समर्पित बिजली वितरण बोर्ड का उपयोग करने के लिए विद्युत प्रणाली को भी अद्यतन किया गया था। ALOHA 2 मूल के साथ पूर्ण सॉफ़्टवेयर संगतता बनाए रखता है - हार्डवेयर भिन्नता के बारे में सामान्य चेतावनियों के अधीन, एक पर एकत्र किए गए डेटासेट दूसरे पर मूल्यांकन की गई नीतियों को प्रशिक्षित कर सकते हैं।
कई वाणिज्यिक विक्रेता अब ALOHA-संगत प्लेटफ़ॉर्म बेचते हैं - पूर्व-संयोजन, परीक्षण किए गए सिस्टम जो ALOHA मैकेनिकल और सॉफ़्टवेयर विनिर्देश का पालन करते हैं, बिना बिल्डर को घटकों को स्रोत करने और हथियारों को स्वयं इकट्ठा करने की आवश्यकता के बिना। इन वाणिज्यिक ALOHA प्रणालियों की लागत सामग्री के DIY बिल से अधिक है, लेकिन सेटअप समय और असेंबली त्रुटियों के जोखिम को काफी हद तक कम कर देती है। एसवीआरसी के हार्डवेयर कैटलॉग में ALOHA-संगत कॉन्फ़िगरेशन शामिल हैं; देखें इकट्ठा करना वर्तमान विकल्पों और मूल्य निर्धारण के लिए।
एसवीआरसी के माध्यम से अलोहा के साथ शुरुआत करना
एसवीआरसी हर चरण में ALOHA-आधारित अनुसंधान का समर्थन करता है। अभी शुरुआत करने वाली टीमों के लिए, हम अपने माध्यम से ALOHA प्लेटफ़ॉर्म लीजिंग की पेशकश करते हैं रोबोट लीजिंग कार्यक्रम - हार्डवेयर खरीदने की पूंजी प्रतिबद्धता के बिना एक निश्चित मासिक शुल्क के लिए पूर्ण द्वि-मैन्युअल सेटअप तक पहुंचें। पट्टे पर दी गई प्रणालियाँ पूर्व-कैलिब्रेटेड आती हैं और पहले दिन प्रदर्शन एकत्र करने के लिए तैयार होती हैं।
डेटा संग्रह के लिए, हमारा प्रबंधित सेवा प्रशिक्षित ALOHA ऑपरेटर प्रदान करता है जो ACT, डिफ्यूजन पॉलिसी और OpenVLA प्रशिक्षण पाइपलाइनों के साथ संगत RLDS/LeRobot प्रारूप में वितरित डेटासेट के साथ हमारी पालो ऑल्टो सुविधा पर प्रदर्शन एकत्र कर सकता है। हमारे ऑपरेटरों को द्वि-मैन्युअल समन्वय कार्यों का अनुभव है और वे संरचित गुणवत्ता प्रोटोकॉल का पालन करते हैं जो आम तौर पर पहली बार के शोधकर्ताओं की तुलना में अधिक स्वच्छ डेटासेट तैयार करते हैं। यदि आपके कार्य के लिए आवश्यक हो तो हम ऑन-लोकेशन डेटा संग्रह अभियानों के लिए आपकी साइट पर भी जा सकते हैं।
नीति प्रशिक्षण और मूल्यांकन के लिए, एसवीआरसी मंच ALOHA नीतियों के लिए पूर्व-कॉन्फ़िगर ACT प्रशिक्षण पाइपलाइन, प्रयोग ट्रैकिंग और मूल्यांकन टूलिंग प्रदान करता है। हमारा मानक ALOHA-विशिष्ट कार्य मूल्यांकन शामिल करें जो आपको संदर्भ कार्यान्वयन के विरुद्ध अपनी नीति के प्रदर्शन की तुलना करने देता है। चाहे आप शुरुआत से एक द्वि-मैन्युअल हेरफेर अनुसंधान कार्यक्रम बना रहे हों या किसी मौजूदा सिस्टम के प्रदर्शन को आगे बढ़ाने की कोशिश कर रहे हों, एसवीआरसी की टीम आपको सही दृष्टिकोण की योजना बनाने में मदद मिल सकती है।