रोबोट सीखने के लिए प्रसार नीति: यह क्या है और इसका उपयोग कैसे करें
प्रसार नीति, ची एट अल द्वारा प्रस्तुत की गई। 2023 में, रोबोट नियंत्रण में जेनेरिक मॉडलिंग क्रांति लाई गई। एक्शन जेनरेशन को एक डीनोइज़िंग समस्या के रूप में मानकर, यह हेरफेर व्यवहार की मल्टीमॉडल, उच्च-आयामी प्रकृति को उन तरीकों से संभालता है जो सरल व्यवहार क्लोनिंग एल्गोरिदम नहीं कर सकते हैं। इसे अपने रोबोटिक्स प्रोजेक्ट पर लागू करने के लिए आपको यह जानने की आवश्यकता है।
प्रसार नीति क्या है?
डिफ्यूजन पॉलिसी रोबोट नियंत्रण नीतियों का एक वर्ग है जो डिनोइजिंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल (डीडीपीएम) पर आधारित है - वही गणितीय ढांचा जो स्टेबल डिफ्यूजन जैसे टेक्स्ट-टू-इमेज मॉडल को रेखांकित करता है। रोबोट के संदर्भ में, उत्पन्न होने वाली "छवि" रोबोट क्रियाओं का एक क्रम (एक प्रक्षेपवक्र) है। एक्शन स्पेस में शुद्ध गॉसियन शोर से शुरू होकर, मॉडल वर्तमान दृश्य अवलोकन और रोबोट स्थिति पर इसे पुनरावृत्त रूप से दर्शाता है, 10-100 डीनोइज़िंग चरणों के बाद एक सुसंगत, उच्च गुणवत्ता वाले एक्शन अनुक्रम का निर्माण करता है।
मुख्य अंतर्दृष्टि यह है कि प्रसार मॉडल किसी एक सर्वोत्तम कार्रवाई की भविष्यवाणी करने के बजाय क्रियाओं पर पूर्ण संभाव्यता वितरण सीखते हैं। रोबोटिक्स के लिए, यह महत्वपूर्ण है। एक ही कार्य का मानव प्रदर्शन स्वाभाविक रूप से बहुविध होता है: सूक्ष्म प्रासंगिक संकेतों के आधार पर एक व्यक्ति बाईं ओर या दाईं ओर से एक कप पकड़ सकता है। एक मॉडल जिसे इस वितरण को एक ही भविष्यवाणी में समेटना होगा, वह या तो एक मोड के लिए प्रतिबद्ध होगा और समय के दूसरे आधे हिस्से में विफल रहेगा, या मोड को औसत करेगा और एक विचित्र बीच-बीच में प्रक्षेपवक्र उत्पन्न करेगा जो हमेशा विफल रहता है। प्रसार नीति वितरण को स्पष्ट रूप से मॉडलिंग करके और अनुमान के समय उससे नमूना लेकर इससे बचती है।
प्रसार नीति मानक व्यवहार क्लोनिंग से बेहतर प्रदर्शन क्यों करती है?
मानक व्यवहार क्लोनिंग (बीसी) एक नीति को पर्यवेक्षित प्रतिगमन समस्या के रूप में प्रशिक्षित करता है: दिए गए अवलोकन, कार्रवाई की भविष्यवाणी करें। यह तब काम करता है जब अवलोकनों से लेकर कार्यों तक का मानचित्रण नियतात्मक और एकरूपतापूर्ण होता है। व्यवहार में, हेरफेर के कार्य शायद ही कभी होते हैं। यहां तक कि किसी टेबल से ब्लॉक को हटाने जैसे "सरल" कार्यों में भी कई वैध दृष्टिकोण कोण, ग्रास्प पोज़ और प्री-ग्रैस्प कॉन्फ़िगरेशन शामिल होते हैं। Naive BC ऐसी नीतियां बनाता है जो निर्णय बिंदुओं पर झिझकती हैं, समझौता किए गए प्रस्ताव विकल्प बनाती हैं, या परीक्षण वितरण प्रशिक्षण से थोड़ा भिन्न होने पर पूरी तरह से विफल हो जाती हैं।
डिफ्यूजन पॉलिसी बेंचमार्क मैनिपुलेशन सुइट्स पर लगातार बीसी बेसलाइन से बेहतर प्रदर्शन करती है। मूल पेपर में, इसने रोबोमिमिक बेंचमार्क में 12 में से 11 कार्यों पर अत्याधुनिक परिणाम प्राप्त किए, विशेष रूप से उच्च एक्शन मल्टीमॉडलिटी वाले कार्यों पर बड़े मार्जिन के साथ। वास्तविक-रोबोट मूल्यांकन पर, डिफ्यूजन पॉलिसी ने अधिक मजबूत पुनर्प्राप्ति व्यवहार का प्रदर्शन किया - जब रोबोट थोड़ा गलत मध्यवर्ती स्थिति में पहुंच गया, तो नीति ठीक हो सकती थी क्योंकि यह एक नियतात्मक पथ का अनुसरण करने के बजाय एक व्यापक वितरण से नमूना ले रहा था।
एसीटी (ट्रांसफॉर्मर्स के साथ एक्शन चंकिंग) की तुलना में, डिफ्यूजन पॉलिसी आम तौर पर मजबूत मल्टीमॉडलिटी वाले कार्यों पर बेहतर प्रदर्शन करती है और लंबी क्षितिज निर्भरता वाले कार्यों पर बदतर प्रदर्शन करती है जहां एसीटी की चंक भविष्यवाणी चमकती है। व्यवहार में, दोनों एल्गोरिदम इतने प्रतिस्पर्धी हैं कि डेटासेट की गुणवत्ता और मात्रा नीति वास्तुकला की पसंद से अधिक मायने रखती है। यदि आप अनिश्चित हैं कि किसका उपयोग करें, तो पुनरावृत्ति की गति के लिए पहले ACT आज़माएँ, फिर यदि आप मोड-औसत विफलताएँ देखते हैं तो डिफ्यूज़न नीति आज़माएँ।
प्रसार नीति के लिए डेटा आवश्यकताएँ
प्रसार नीति को ACT की तुलना में अधिक डेटा से लाभ होता है, मुख्य रूप से क्योंकि डीनोइज़िंग नेटवर्क में अधिक पैरामीटर और एक समृद्ध मॉडलिंग उद्देश्य होता है। नियंत्रित परिस्थितियों में एक कार्य के लिए व्यावहारिक न्यूनतम 100-200 प्रदर्शन हैं। मजबूत परिनियोजन प्रदर्शन प्राप्त करने के लिए - ऑब्जेक्ट स्थिति भिन्नता, प्रकाश परिवर्तन और कभी-कभी सेंसर शोर को संभालना - प्रति कार्य बजट 300-500 प्रदर्शन। एसीटी के विपरीत, डिफ्यूजन पॉलिसी काफी बड़े डेटासेट आकार तक अतिरिक्त डेटा के साथ सुधार जारी रखती है, जिससे यदि आप बड़े पैमाने पर डेटा संग्रह प्रयास में निवेश करने की योजना बनाते हैं तो यह बेहतर विकल्प बन जाता है।
डेटा विविधता मात्रा जितनी ही महत्वपूर्ण है। प्रदर्शनों में ऑब्जेक्ट की स्थिति, ओरिएंटेशन और दृश्य कॉन्फ़िगरेशन की वह सीमा शामिल होनी चाहिए जिसकी आप तैनाती में अपेक्षा करते हैं। हमेशा एक ही स्थान पर मौजूद वस्तुओं के साथ प्रदर्शनों का एक तंग समूह एक ऐसी नीति का निर्माण करेगा जो किसी वस्तु को कुछ सेंटीमीटर आगे बढ़ने पर विफल हो जाती है। एसवीआरसी का प्रबंधित डेटा संग्रह सेवा सामान्यीकरण योग्य नीतियों का उत्पादन करने वाले डेटासेट को सुनिश्चित करने के लिए संरचित भिन्नता प्रोटोकॉल का पालन करता है - ऑब्जेक्ट स्थिति, प्रकाश की स्थिति और ऑपरेटर पकड़ शैलियों को व्यवस्थित रूप से यादृच्छिक बनाना।
अवलोकन प्रतिनिधित्व भी महत्वपूर्ण रूप से मायने रखता है। एंड-टू-एंड प्रशिक्षित रेसनेट छवि एनकोडर के साथ प्रसार नीति आम तौर पर संकीर्ण कार्य वितरण पर जमे हुए पूर्व-प्रशिक्षित एनकोडर का उपयोग करने वाली नीतियों से बेहतर प्रदर्शन करती है, लेकिन परीक्षण की स्थिति प्रशिक्षण से भिन्न होने पर पूर्व-प्रशिक्षित एनकोडर (आर 3 एम, एमवीपी, डीआईएनओ) बेहतर सामान्यीकरण उत्पन्न करते हैं। अधिकांश व्यावहारिक परियोजनाओं के लिए, अपने डेटासेट के मूल्य को अधिकतम करने के लिए पूर्व-प्रशिक्षित एनकोडर से शुरुआत करें, और अंत-से-अंत प्रशिक्षण पर तभी स्विच करें जब आपके पास 500+ प्रदर्शन और एक स्थिर वातावरण हो।
प्रशिक्षण सेटअप और गणना आवश्यकताएँ
डिफ्यूजन पॉलिसी (कोलंबिया रोबोटिक्स लैब गिटहब पर उपलब्ध) का संदर्भ कार्यान्वयन या तो यूनेट बैकबोन (तेज अनुमान, कम क्षमता) या ट्रांसफार्मर बैकबोन (धीमी अनुमान, उच्च क्षमता) के साथ प्रशिक्षित होता है। अधिकांश एकल-कार्य परियोजनाओं के लिए, यूनेट संस्करण सही प्रारंभिक बिंदु है। एकल आरटीएक्स 3090 या 4090 पर प्रशिक्षण में 200-एपिसोड डेटासेट के लिए 4-12 घंटे लगते हैं, जो अवलोकन रिज़ॉल्यूशन और एक्शन क्षितिज लंबाई पर निर्भर करता है।
सही ढंग से सेट करने के लिए मुख्य हाइपरपैरामीटर: कार्रवाई क्षितिज (कितने भविष्य के चरणों की भविष्यवाणी करनी है - आम तौर पर टेबलटॉप कार्यों के लिए 16-32), प्रसार चरणों की संख्या (डीडीपीएम के लिए 100, न्यूनतम गुणवत्ता हानि के साथ डीडीआईएम के लिए 10-25), और अवलोकन विंडो (कितने पिछले फ्रेम शामिल करने हैं - आम तौर पर 2)। तीनों को एक साथ न बदलें; एक को ट्यून करते समय दूसरों को ठीक करें। नीति प्रदर्शन में सुधार के लिए सबसे प्रभावशाली परिवर्तन आमतौर पर डेटासेट का आकार बढ़ाना है, न कि आर्किटेक्चर हाइपरपैरामीटर को ट्यून करना।
वास्तविक रोबोट के अनुमान के लिए, 100 चरणों पर डीडीपीएम आमतौर पर उच्च-आवृत्ति नियंत्रण के लिए बहुत धीमा है। 10-25 चरणों वाले डीडीआईएम शेड्यूलर का उपयोग करें, जो आरटीएक्स 3090 पर ~20 हर्ट्ज पर चलता है - एक बफर के साथ 10 हर्ट्ज नियंत्रण के लिए पर्याप्त है। वैकल्पिक रूप से, स्थिरता नीति आसवन सरल कार्यों के लिए न्यूनतम प्रदर्शन गिरावट के साथ 1-3 चरण का अनुमान प्राप्त कर सकता है।
प्रसार नीति के लिए एसवीआरसी डेटा सेवाओं का उपयोग करना
एसवीआरसी का डेटा सेवा पाइपलाइन डिफ्यूजन पॉलिसी संदर्भ कार्यान्वयन और हगिंगफेस लेरोबोट फ्रेमवर्क के साथ सीधे उपयोग के लिए स्वरूपित डेटासेट तैयार करता है। एपिसोड को ZARR अभिलेखागार के रूप में सिंक्रनाइज़ छवि धाराओं, प्रोप्रियोसेप्टिव स्थिति और 50 हर्ट्ज पर क्रियाओं के साथ संग्रहीत किया जाता है। गुणवत्ता फ़िल्टरिंग उन प्रकरणों को हटा देती है जहां कार्य सफलतापूर्वक पूरा नहीं हुआ था, रोबोट पर्यावरण से टकरा गया था, या ऑपरेटर की झिझक ने गैर-प्रतिनिधि प्रक्षेप पथ उत्पन्न किए थे।
हमारी संग्रह सेवा इसका उपयोग करती है एसवीआरसी टेलीऑपरेशन प्लेटफार्म डुअल-आर्म सक्षम लीडर-फ़ॉलोअर नियंत्रण, कलाई पर लगे और ओवरहेड कैमरे और वैकल्पिक बल-टॉर्क लॉगिंग के साथ। बहु-कार्य प्रसार नीति प्रशिक्षण के लिए - जहां एक एकल नीति कार्य आईडी या भाषा पर आधारित कई कार्यों को सीखती है - हम एक ही अभियान के भीतर कार्य प्रकारों को एकत्र कर सकते हैं और एक एकीकृत डेटासेट प्रदान कर सकते हैं। OpenArm या ALOHA हार्डवेयर प्लेटफ़ॉर्म के साथ काम करने वाली टीमों को मूल हार्डवेयर समर्थन मिलता है; कस्टम हार्डवेयर एकीकरण अनुरोध पर उपलब्ध है। हमारी टीम से संपर्क करें आपकी डेटा आवश्यकताओं और समयरेखा पर चर्चा करने के लिए।