रोबोट सीखना

एसीटी नीति की व्याख्या: रोबोट लर्निंग के लिए ट्रांसफॉर्मर के साथ एक्शन चंकिंग

एसीटी - एक्शन चंकिंग विद ट्रांसफॉर्मर्स - स्टैनफोर्ड में टोनी झाओ और सहयोगियों द्वारा इसके प्रकाशन के बाद निपुण हेरफेर के लिए सबसे व्यापक रूप से अपनाए जाने वाले अनुकरण शिक्षण एल्गोरिदम में से एक बन गया। यह कैसे काम करता है और इसका उपयोग कैसे करना है, इसकी व्यावहारिक व्याख्या यहां दी गई है।

अधिनियम क्या है?

ACT एक अनुकरण शिक्षण एल्गोरिदम है जिसे सूक्ष्म हेरफेर कार्यों के लिए डिज़ाइन किया गया है जहां रोबोट को दृश्य अवलोकनों के आधार पर सुचारू, समन्वित गतिविधियां करनी होती हैं। अनुमान के समय, ACT रोबोट के कैमरे और वर्तमान संयुक्त स्थिति से छवियों का एक अनुक्रम लेता है, और एक अगली कार्रवाई के बजाय भविष्य की कार्रवाइयों का एक हिस्सा - संयुक्त स्थिति लक्ष्यों का एक छोटा अनुक्रम - आउटपुट करता है। रोबोट इस हिस्से को निष्पादित करता है, फिर अगले हिस्से के लिए नीति से दोबारा पूछताछ करता है। यह भविष्यवाणी-कई-चरण-आगे का डिज़ाइन ACT की परिभाषित विशेषता है और सरल व्यवहार क्लोनिंग पर इसके अधिकांश लाभों का स्रोत है।

ACT को ALOHA द्वि-मैन्युअल हेरफेर प्रणाली के संदर्भ में पेश किया गया था और पहले अनुकरण सीखने की पहुंच से बाहर माने जाने वाले कार्यों में सफलता का प्रदर्शन किया गया था: बैटरी को स्लॉट करना, ज़िपलॉक बैग खोलना, सुई में धागा डालना। इसकी मूल अंतर्दृष्टि - कि खंडित कार्रवाई की भविष्यवाणी कंपाउंडिंग त्रुटियों को कम करती है और प्रक्षेपवक्र को सुचारू बनाती है - तब से कई फॉलो-ऑन एल्गोरिदम में अपनाई गई है।

एक्शन चंकिंग कैसे काम करता है

मानक व्यवहार क्लोनिंग (बीसी) वर्तमान अवलोकन को देखते हुए अगली एकल कार्रवाई की भविष्यवाणी करने के लिए एक नीति को प्रशिक्षित करता है। अनुमान के समय, भविष्यवाणी की त्रुटियां जमा हो जाती हैं: प्रत्येक छोटी गलती रोबोट की स्थिति को थोड़ा बदल देती है, इसे उस वितरण में डाल देती है जिस पर नीति प्रशिक्षित नहीं थी, जिससे अगली भविष्यवाणी खराब हो जाती है, और इसी तरह। यह कंपाउंडिंग त्रुटि ठीक हेरफेर कार्यों पर अनुभवहीन बीसी की केंद्रीय विफलता मोड है।

एक्शन चंकिंग भविष्य की गतिविधियों के अनुक्रम की भविष्यवाणी करके इस चक्र को तोड़ता है - आम तौर पर 50 हर्ट्ज पर 50-100 कदम, गति के 1-2 सेकंड के अनुरूप। नीति इस योजना के लिए प्रतिबद्ध है और पुन: पूछताछ करने से पहले इसे क्रियान्वित करती है। क्योंकि योजना एक एकल सुसंगत अवलोकन से उत्पन्न हुई थी, प्रक्षेपवक्र सुचारू और आंतरिक रूप से सुसंगत है। टेम्पोरल एन्सेम्बलिंग - कई पुनः-प्रश्नों से ओवरलैपिंग एक्शन चंक्स का औसत - निष्पादन को और अधिक सुचारू बनाता है और चंक्स के बीच की सीमाओं पर घबराहट को कम करता है।

एसीटी वास्तुकला

ACT CVAE (कंडीशनल वेरिएशनल ऑटोएन्कोडर) आर्किटेक्चर का उपयोग करता है। प्रशिक्षण के दौरान, एक एनकोडर पूरे प्रदर्शन प्रक्षेपवक्र - छवियों, संयुक्त राज्यों और कार्यों को संसाधित करता है - और एक अव्यक्त शैली चर z उत्पन्न करता है जो प्रदर्शन की "शैली" (तेज बनाम धीमी, बाएं-झुकाव बनाम दाएं-झुकाव दृष्टिकोण, आदि) को कैप्चर करता है। एक ट्रांसफॉर्मर-आधारित डिकोडर तब वर्तमान अवलोकन, अव्यक्त जेड और स्थितीय एन्कोडिंग लेता है, और एक्शन चंक की भविष्यवाणी करता है। अनुमान के समय, z को शून्य (पूर्व का माध्य) पर सेट किया जाता है, जिससे अवलोकन को देखते हुए नीति नियतात्मक हो जाती है।

विज़न बैकबोन आम तौर पर एक ResNet-18 है जो प्रत्येक कैमरा दृश्य को स्वतंत्र रूप से संसाधित करता है, जिसके परिणामस्वरूप फ़ीचर मानचित्र ट्रांसफार्मर डिकोडर को टोकन के रूप में पारित किए जाते हैं। एकाधिक कैमरा दृश्य - कलाई कैमरे और ओवरहेड कैमरे - प्रत्येक एक टोकन स्ट्रीम का योगदान करते हैं, जिससे नीति को हेरफेर दृश्य के बारे में समृद्ध स्थानिक जानकारी मिलती है।

डेटा आवश्यकताएँ और अच्छा डेटा क्या होता है

अधिकांश प्रकाशित परिणामों में प्रति कार्य 50-200 प्रदर्शनों के साथ ACT अच्छा काम करता है। हालाँकि, डेटा की गुणवत्ता मात्रा से अधिक मायने रखती है। प्रदर्शन सुचारू और उद्देश्यपूर्ण होना चाहिए - ACT नीति डेटा में जो भी गति पैटर्न है, उसे सीखेगी, जिसमें झिझक, सुधार और उप-इष्टतम दृष्टिकोण शामिल हैं। एसवीआरसी का डेटा संग्रहण मानक ऑपरेटरों को एक दृश्य त्रुटि के बाद जारी रखने के बजाय एक एपिसोड को पुनरारंभ करने की आवश्यकता होती है, यह सुनिश्चित करते हुए कि प्रशिक्षण डेटासेट में केवल जानबूझकर, सफल व्यवहार शामिल हैं।

कैमरे की स्थिरता भी महत्वपूर्ण है. यदि रिकॉर्डिंग सत्रों के बीच कैमरा प्लेसमेंट बदलता है, तो सीखी गई नीति की दृश्य विशेषताएं अब तैनाती सेटअप से मेल नहीं खाएगी। लचीली भुजाओं के बजाय भौतिक माउंट का उपयोग करें, और प्रत्येक डेटासेट के साथ कैमरा अंशांकन पैरामीटर लॉग करें। एसवीआरसी की मल्टी-कैमरा रिकॉर्डिंग पाइपलाइन इसे स्वचालित रूप से लागू करती है।

अधिनियम बनाम व्यवहार क्लोनिंग: परिणाम

मूल ALOHA कार्यों पर, ACT ने उसी डेटा पर मानक BC के लिए 20-50% की तुलना में 80-95% की सफलता दर हासिल की। सटीक समय निर्धारण, दो भुजाओं के बीच सहज समन्वय और छोटी-मोटी गड़बड़ियों से सहजता से उबरने की आवश्यकता वाले कार्यों में सुधार सबसे अधिक स्पष्ट होता है। क्षमाशील सहनशीलता के साथ सरल पिक-एंड-प्लेस कार्यों पर, ACT और BC के बीच का अंतर कम हो जाता है। ACT उन कार्यों पर भी प्रसार नीति से बेहतर प्रदर्शन करता है जहां निष्पादन गति मायने रखती है, क्योंकि प्रसार-आधारित नीतियों के लिए प्रति अनुमान चरण में अधिक गणना की आवश्यकता होती है।

एसवीआरसी डेटा के साथ प्रशिक्षण अधिनियम

एसवीआरसी का डेटा प्लेटफ़ॉर्म LeRobot-संगत HDF5 प्रारूप में डेटासेट निर्यात करता है, जो ओपन-सोर्स ACT प्रशिक्षण कोड के लिए मानक इनपुट प्रारूप है। अपना डेटासेट डाउनलोड करने के बाद, बेसलाइन ACT नीति के प्रशिक्षण के लिए कम से कम 16 जीबी वीआरएएम के साथ एक जीपीयू और एक कार्य के लिए लगभग 8 घंटे के प्रशिक्षण की आवश्यकता होती है। एसवीआरसी इंजीनियरिंग सहायता टीमों को प्रशिक्षण रन कॉन्फ़िगर करने, चंक आकार और सीखने की दर को समायोजित करने और नीति प्रदर्शन का मूल्यांकन करने में मदद करने के लिए उपलब्ध है। अपना स्वयं का डेटा एकत्र करने के लिए हार्डवेयर के लिए, हमारा देखें हार्डवेयर कैटलॉग या अन्वेषण करें रोबोट पट्टे के विकल्प.