यूनिट 6: अपनी द्वि-मैन्युअल नीति चलाएं और सुधारें - डीके1 लर्निंग पाथ

दो भुजाओं के लिए अनुमान सेटअप

द्वि-मैन्युअल अनुमान एक एकल नीति नेटवर्क चलाता है जो दोनों हथियारों के लिए क्रियाओं को एक साथ आउटपुट करता है। अवलोकन-एक्शन लूप 50 हर्ट्ज पर चलता है - आपके प्रशिक्षण डेटा के समान आवृत्ति - दोनों अनुयायी हथियार सिंक में अपने संबंधित एक्शन हिस्सों को निष्पादित करते हैं।

स्रोत ~/dk1-env/bin/सक्रिय करें

# Keep your hand near the E-stop for the first 3 evaluation episodes

पायथन -एम लेरोबोट.स्क्रिप्ट्स.eval \ --पॉलिसी-चेकपॉइंट ~/dk1-पॉलिसीज़/क्यूब-हैंडऑफ़-v1/चेकपॉइंट_XXXXX \ --रोबोट-पथ ~/dk1-config.yaml \ --रोबोट-प्रकार dk1_bimanual \ --डिवाइस क्यूडा \ --संख्या-eval-एपिसोड 10 \ --रिकॉर्ड-वीडियो \ --आउटपुट-dir ~/dk1-evals/v1

# Replace XXXXX with your best checkpoint step (from Unit 5 loss curve analysis)
# --record-video saves both arm views as separate mp4 files for failure analysis

पहले मूल्यांकन दौर के लिए, नीति को बिना किसी रुकावट के निष्पादित होने दें, जब तक कि कोई भौतिक टकराव आसन्न न हो। द्वि-मैनुअल नीतियां अक्सर पहले 1-2 एपिसोड में अप्रत्याशित गति उत्पन्न करती हैं क्योंकि वे वास्तविक वातावरण के अनुकूल होती हैं। एपिसोड 3-10 सार्थक मूल्यांकन डेटा हैं। ध्यान दें कि क्या नीति लगातार कार्य के समान चरणों (दृष्टिकोण, समझ, स्थानांतरण, स्थान, घर) तक पहुँचती है, भले ही वह अंततः विफल हो जाए - आंशिक सफलता नैदानिक जानकारी है।

द्विमासिक मूल्यांकन प्रोटोकॉल

एक संरचित प्रोटोकॉल का प्रयोग करें. अनौपचारिक मूल्यांकन - "ऐसा लगता है कि यह काम कर रहा है" - द्विभाषी नीतियों के लिए अविश्वसनीय है क्योंकि आंशिक सफलताएँ बहुत अधिक सामान्य हैं और मौलिक रूप से टूटे हुए हैंडऑफ़ को छुपा सकती हैं।

प्रोटोकॉल आइटम	द्विमासिक विशिष्टता
एपिसोड की संख्या	न्यूनतम 10; अधिक डेटा जोड़ने से पहले उच्च-विश्वास परिणामों के लिए 20
घन आरंभिक स्थिति	निश्चित, टेप-चिह्नित स्थिति - आपके यूनिट 4 प्रशिक्षण सेटअप के समान
प्रकाश	प्रशिक्षण स्थितियों से मेल खाना चाहिए. यहां तक कि एक खिड़की खोलने से भी कार्यस्थल के कैमरे को प्रभावित करने के लिए प्रकाश में बदलाव हो सकता है
जिसे पूर्ण सफलता के रूप में गिना जाता है	क्यूब दाईं ओर से शुरू होता है, बाईं ओर समाप्त होता है, दोनों भुजाएं घर की मुद्रा में लौट आती हैं, एपिसोड के दौरान कोई मानव संपर्क नहीं होता है
आंशिक सफलता के रूप में क्या गिना जाता है	सही पकड़ हासिल की गई लेकिन स्थानांतरण विफल हो गया, या स्थानांतरण सफल हो गया लेकिन प्लेसमेंट लक्ष्य से बाहर है। इन्हें अलग से लॉग करें.
विफलता वर्गीकरण	लॉग: (ए) समझने में विफलता, (बी) हैंडऑफ़ विफलता - आर्म-टू-आर्म ट्रांसफर ड्रॉप्स, (सी) प्लेसमेंट विफलता, (डी) टाइमआउट। हैंडऑफ़ विफलता श्रेणी (बी) द्वि-मैनुअल के लिए अद्वितीय है और सुधार के लिए सबसे अधिक जानकारीपूर्ण है।
रिपोर्ट मीट्रिक	पूर्ण सफलता दर (सभी 4 चरणों वाले एपिसोड सही)। आंशिक सफलता दर भी रिपोर्ट करें. उदाहरण: "4/10 पूर्ण, 7/10 हैंडऑफ चरण में पहुंच गया"।

सामान्य द्वि-मैन्युअल विफलता मोड

ये विफलता मोड एकल-हाथ विफलताओं से भिन्न हैं और इन्हें द्वि-मैन्युअल-विशिष्ट सुधारों की आवश्यकता होती है:

हथियार हैंडऑफ़ बिंदु पर अतुल्यकालिक रूप से पहुंचते हैं: एक हाथ हैंडऑफ स्थिति तक पहुंचता है और इंतजार करता है; दूसरा देर से आता है. नीति ने हथियारों के बीच सापेक्ष समय निर्धारण नहीं सीखा है। ठीक करें: 20 प्रदर्शन जोड़ें जहां दोनों भुजाएं स्थानांतरण पूरा करने से पहले स्पष्ट रूप से 1-2 सेकंड के लिए हैंडऑफ़ बिंदु पर रुकें। यह डेटा में सिंक्रनाइज़ेशन आवश्यकता को स्पष्ट करता है।
हैंडऑफ़ ड्रॉप - घन दोनों भुजाओं के बीच गिरता है: सबसे आम द्वि-मैन्युअल-विशिष्ट विफलता। प्राप्तकर्ता हाथ अपने ग्रिपर को देने वाले हाथ की रिहाई के सापेक्ष बहुत जल्दी या बहुत देर से बंद करता है। ठीक करें: विशेष रूप से 25% गति पर 15 धीमी गति वाले हैंडऑफ़ प्रदर्शन एकत्र करें। अतिरंजित समय नीति को ग्रिपर राज्य संक्रमण अनुक्रम के बारे में एक स्पष्ट संकेत देता है।
नीति एकल-हाथ की रणनीति पर केंद्रित है: नीति दूसरे हाथ की क्षमताओं को नज़रअंदाज़ करते हुए केवल एक हाथ से कार्य पूरा करना सीखती है। ऐसा तब होता है जब एक हाथ का प्रदर्शन दूसरे की तुलना में अधिक सुसंगत होता है। ठीक करें: प्रशिक्षण वक्रों (यूनिट 5) से प्रत्येक हाथ की कार्रवाई त्रुटि की समीक्षा करें और विशेष रूप से कमजोर हाथ के चरणों को लक्षित करते हुए अतिरिक्त डेमो एकत्र करें।
अंतर-बांह टकराव: दोनों भुजाएँ एक ही कार्यक्षेत्र स्थान पर कब्ज़ा करने का प्रयास करती हैं। यह एक सुरक्षा घटना है - DK1 हार्डवेयर सर्वर में टकराव से बचने को सक्षम करें (collision_avoidance: true मूल्यांकन के दौरान dk1-config.yaml में)। ऐसे प्रदर्शनों पर प्रशिक्षण जो लगातार सुरक्षित हाथ पृथक्करण का सम्मान करते हैं, अधिकांश टकरावों को रोकेंगे; हार्डवेयर-स्तरीय गार्ड किनारे के मामलों को संभालता है।
परिनियोजन पर चरण डीसिंक्रनाइज़ेशन: नीति सही कार्यों को निष्पादित करती है, लेकिन सही अस्थायी क्रम में नहीं - उदाहरण के लिए, बाएं हाथ के स्थानांतरित होने से पहले दाहिने हाथ का स्थान। यह एक एक्शन चंकिंग आर्टिफैक्ट है जहां चंक सीमाएं कार्य चरण संक्रमणों के साथ संरेखित नहीं होती हैं। ठीक करें: कम करें chunk_size 100 से 50 तक और फिर से प्रशिक्षित करें।

द्वि-मैनुअल सुधार के लिए डेटा फ्लाईव्हील

वही सुधार लूप जो सिंगल-आर्म नीतियों के लिए काम करता है, द्वि-हाथ वाली नीतियों के लिए काम करता है - एक द्वि-मैनुअल-विशिष्ट जोड़ के साथ: हमेशा लक्ष्य को लक्षित करें पहला कार्य क्रम में विफलता मोड. यदि पकड़ (चरण ए) अभी भी असंगत है तो हैंडऑफ़ (चरण बी) में सुधार नहीं किया जा सकता है। कार्य अनुक्रम क्रम में विफलताओं को ठीक करें।

मूल्यांकन करना

10 एपिसोड चलाएं. प्रत्येक विफलता को चरण के आधार पर वर्गीकृत करें (ए/बी/सी/डी)

लक्ष्य

प्रथम विफलता चरण को पहचानें। विशेष रूप से उस चरण को कवर करने वाले 20-30 डेमो एकत्र करें

फिर से सिखाना

डेटासेट में लक्षित डेमो जोड़ें। स्क्रैच से पुनः प्रशिक्षित करें या सर्वोत्तम चेकपॉइंट को फाइन-ट्यून करें

मूल्यांकन करना

फिर से 10 एपिसोड चलाएं. क्या पूर्ण सफलता दर में सुधार हुआ? अगले विफलता चरण की ओर बढ़ें.

आगे क्या होगा

अब आपके पास एक कार्यशील द्वि-मैन्युअल शिक्षण पाइपलाइन है। क्यूब हैंडऑफ़ नींव है - समान वास्तुकला काफी अधिक जटिल कार्यों को मापती है:

वेरिएबल-स्पीड टेलीऑपरेशन

संपर्क-समृद्ध कार्यों के लिए गति-अनुकूली टेलीऑपरेशन जहां बल प्रतिक्रिया इष्टतम गति गति को बदल देती है।

कुशल हाथ जोड़ें

हाथ में सटीक हेरफेर की आवश्यकता वाले कार्यों पर उंगली-स्तर की निपुणता के लिए ओर्का हाथ के साथ डीके1 भुजाओं को मिलाएं।

अपने डेटासेट को स्केल करें

ऑपरेटरों, कार्यों और हार्डवेयर कॉन्फ़िगरेशन में द्वि-मैन्युअल डेटा संग्रह को स्केल करने की तकनीकें।

अपने परिणाम साझा करें

DK1 फोरम में अपनी सफलता दर, डेटासेट और नीति पोस्ट करें। द्वि-मैन्युअल परिणाम समुदाय द्वारा एकत्र किए गए सबसे मूल्यवान परिणामों में से एक हैं।

इकाई 6 पूर्ण जब...

आपका DK1 एक संरचित मूल्यांकन रन में कम से कम 6/10 की पूर्ण सफलता दर के साथ क्यूब हैंडऑफ़ कार्य को स्वायत्त रूप से पूरा करता है। आपने सभी विफलता प्रकरणों को चरण (ए/बी/सी/डी) के आधार पर वर्गीकृत किया है और पहचाना है कि अधिकांश विफलताओं के लिए कौन सा चरण जिम्मेदार है। आपने विफलता के वीडियो देखे हैं और स्पष्ट रूप से स्पष्ट कर सकते हैं कि क्या गलत हुआ। आप अपने अगले सुधार पुनरावृत्ति की योजना बनाने के लिए द्वि-मैनुअल डेटा फ्लाईव्हील को अच्छी तरह से समझते हैं।

आपने एक कार्यशील द्वि-मैन्युअल रोबोट शिक्षण प्रणाली बनाई।

आपने एक लीडर/फ़ॉलोअर आर्किटेक्चर को कॉन्फ़िगर किया, समकालिक दो-हाथ प्रदर्शनों को एकत्र किया, एक समन्वित नीति को शुरू से प्रशिक्षित किया, और इसे वास्तविक हार्डवेयर पर तैनात किया। इस स्तर पर द्वि-मैन्युअल हेरफेर वह जगह है जहां अनुसंधान प्रयोगशालाएं संचालित होती हैं। आपने यहां जो आधार तैयार किया है, वह संयोजन, खाना पकाने और संपर्क-समृद्ध कार्यों के लिए है जो इस पथ पर शुरू होने से पहले आपकी पहुंच से बाहर थे।

अपनी द्वि-मैन्युअल नीति चलाएँ और उसमें सुधार करें

दो भुजाओं के लिए अनुमान सेटअप

द्विमासिक मूल्यांकन प्रोटोकॉल

सामान्य द्वि-मैन्युअल विफलता मोड

द्वि-मैनुअल सुधार के लिए डेटा फ्लाईव्हील

मूल्यांकन करना

लक्ष्य

फिर से सिखाना

मूल्यांकन करना

आगे क्या होगा

वेरिएबल-स्पीड टेलीऑपरेशन

कुशल हाथ जोड़ें

अपने डेटासेट को स्केल करें

अपने परिणाम साझा करें

इकाई 6 पूर्ण जब...

आपने एक कार्यशील द्वि-मैन्युअल रोबोट शिक्षण प्रणाली बनाई।