दो भुजाओं के लिए अनुमान सेटअप
द्वि-मैन्युअल अनुमान एक एकल नीति नेटवर्क चलाता है जो दोनों हथियारों के लिए क्रियाओं को एक साथ आउटपुट करता है। अवलोकन-एक्शन लूप 50 हर्ट्ज पर चलता है - आपके प्रशिक्षण डेटा के समान आवृत्ति - दोनों अनुयायी हथियार सिंक में अपने संबंधित एक्शन हिस्सों को निष्पादित करते हैं।
पहले मूल्यांकन दौर के लिए, नीति को बिना किसी रुकावट के निष्पादित होने दें, जब तक कि कोई भौतिक टकराव आसन्न न हो। द्वि-मैनुअल नीतियां अक्सर पहले 1-2 एपिसोड में अप्रत्याशित गति उत्पन्न करती हैं क्योंकि वे वास्तविक वातावरण के अनुकूल होती हैं। एपिसोड 3-10 सार्थक मूल्यांकन डेटा हैं। ध्यान दें कि क्या नीति लगातार कार्य के समान चरणों (दृष्टिकोण, समझ, स्थानांतरण, स्थान, घर) तक पहुँचती है, भले ही वह अंततः विफल हो जाए - आंशिक सफलता नैदानिक जानकारी है।
द्विमासिक मूल्यांकन प्रोटोकॉल
एक संरचित प्रोटोकॉल का प्रयोग करें. अनौपचारिक मूल्यांकन - "ऐसा लगता है कि यह काम कर रहा है" - द्विभाषी नीतियों के लिए अविश्वसनीय है क्योंकि आंशिक सफलताएँ बहुत अधिक सामान्य हैं और मौलिक रूप से टूटे हुए हैंडऑफ़ को छुपा सकती हैं।
| प्रोटोकॉल आइटम | द्विमासिक विशिष्टता |
|---|---|
| एपिसोड की संख्या | न्यूनतम 10; अधिक डेटा जोड़ने से पहले उच्च-विश्वास परिणामों के लिए 20 |
| घन आरंभिक स्थिति | निश्चित, टेप-चिह्नित स्थिति - आपके यूनिट 4 प्रशिक्षण सेटअप के समान |
| प्रकाश | प्रशिक्षण स्थितियों से मेल खाना चाहिए. यहां तक कि एक खिड़की खोलने से भी कार्यस्थल के कैमरे को प्रभावित करने के लिए प्रकाश में बदलाव हो सकता है |
| जिसे पूर्ण सफलता के रूप में गिना जाता है | क्यूब दाईं ओर से शुरू होता है, बाईं ओर समाप्त होता है, दोनों भुजाएं घर की मुद्रा में लौट आती हैं, एपिसोड के दौरान कोई मानव संपर्क नहीं होता है |
| आंशिक सफलता के रूप में क्या गिना जाता है | सही पकड़ हासिल की गई लेकिन स्थानांतरण विफल हो गया, या स्थानांतरण सफल हो गया लेकिन प्लेसमेंट लक्ष्य से बाहर है। इन्हें अलग से लॉग करें. |
| विफलता वर्गीकरण | लॉग: (ए) समझने में विफलता, (बी) हैंडऑफ़ विफलता - आर्म-टू-आर्म ट्रांसफर ड्रॉप्स, (सी) प्लेसमेंट विफलता, (डी) टाइमआउट। हैंडऑफ़ विफलता श्रेणी (बी) द्वि-मैनुअल के लिए अद्वितीय है और सुधार के लिए सबसे अधिक जानकारीपूर्ण है। |
| रिपोर्ट मीट्रिक | पूर्ण सफलता दर (सभी 4 चरणों वाले एपिसोड सही)। आंशिक सफलता दर भी रिपोर्ट करें. उदाहरण: "4/10 पूर्ण, 7/10 हैंडऑफ चरण में पहुंच गया"। |
सामान्य द्वि-मैन्युअल विफलता मोड
ये विफलता मोड एकल-हाथ विफलताओं से भिन्न हैं और इन्हें द्वि-मैन्युअल-विशिष्ट सुधारों की आवश्यकता होती है:
- हथियार हैंडऑफ़ बिंदु पर अतुल्यकालिक रूप से पहुंचते हैं: एक हाथ हैंडऑफ स्थिति तक पहुंचता है और इंतजार करता है; दूसरा देर से आता है. नीति ने हथियारों के बीच सापेक्ष समय निर्धारण नहीं सीखा है। ठीक करें: 20 प्रदर्शन जोड़ें जहां दोनों भुजाएं स्थानांतरण पूरा करने से पहले स्पष्ट रूप से 1-2 सेकंड के लिए हैंडऑफ़ बिंदु पर रुकें। यह डेटा में सिंक्रनाइज़ेशन आवश्यकता को स्पष्ट करता है।
- हैंडऑफ़ ड्रॉप - घन दोनों भुजाओं के बीच गिरता है: सबसे आम द्वि-मैन्युअल-विशिष्ट विफलता। प्राप्तकर्ता हाथ अपने ग्रिपर को देने वाले हाथ की रिहाई के सापेक्ष बहुत जल्दी या बहुत देर से बंद करता है। ठीक करें: विशेष रूप से 25% गति पर 15 धीमी गति वाले हैंडऑफ़ प्रदर्शन एकत्र करें। अतिरंजित समय नीति को ग्रिपर राज्य संक्रमण अनुक्रम के बारे में एक स्पष्ट संकेत देता है।
- नीति एकल-हाथ की रणनीति पर केंद्रित है: नीति दूसरे हाथ की क्षमताओं को नज़रअंदाज़ करते हुए केवल एक हाथ से कार्य पूरा करना सीखती है। ऐसा तब होता है जब एक हाथ का प्रदर्शन दूसरे की तुलना में अधिक सुसंगत होता है। ठीक करें: प्रशिक्षण वक्रों (यूनिट 5) से प्रत्येक हाथ की कार्रवाई त्रुटि की समीक्षा करें और विशेष रूप से कमजोर हाथ के चरणों को लक्षित करते हुए अतिरिक्त डेमो एकत्र करें।
- अंतर-बांह टकराव: दोनों भुजाएँ एक ही कार्यक्षेत्र स्थान पर कब्ज़ा करने का प्रयास करती हैं। यह एक सुरक्षा घटना है - DK1 हार्डवेयर सर्वर में टकराव से बचने को सक्षम करें (
collision_avoidance: trueमूल्यांकन के दौरान dk1-config.yaml में)। ऐसे प्रदर्शनों पर प्रशिक्षण जो लगातार सुरक्षित हाथ पृथक्करण का सम्मान करते हैं, अधिकांश टकरावों को रोकेंगे; हार्डवेयर-स्तरीय गार्ड किनारे के मामलों को संभालता है। - परिनियोजन पर चरण डीसिंक्रनाइज़ेशन: नीति सही कार्यों को निष्पादित करती है, लेकिन सही अस्थायी क्रम में नहीं - उदाहरण के लिए, बाएं हाथ के स्थानांतरित होने से पहले दाहिने हाथ का स्थान। यह एक एक्शन चंकिंग आर्टिफैक्ट है जहां चंक सीमाएं कार्य चरण संक्रमणों के साथ संरेखित नहीं होती हैं। ठीक करें: कम करें
chunk_size100 से 50 तक और फिर से प्रशिक्षित करें।
द्वि-मैनुअल सुधार के लिए डेटा फ्लाईव्हील
वही सुधार लूप जो सिंगल-आर्म नीतियों के लिए काम करता है, द्वि-हाथ वाली नीतियों के लिए काम करता है - एक द्वि-मैनुअल-विशिष्ट जोड़ के साथ: हमेशा लक्ष्य को लक्षित करें पहला कार्य क्रम में विफलता मोड. यदि पकड़ (चरण ए) अभी भी असंगत है तो हैंडऑफ़ (चरण बी) में सुधार नहीं किया जा सकता है। कार्य अनुक्रम क्रम में विफलताओं को ठीक करें।
मूल्यांकन करना
10 एपिसोड चलाएं. प्रत्येक विफलता को चरण के आधार पर वर्गीकृत करें (ए/बी/सी/डी)
लक्ष्य
प्रथम विफलता चरण को पहचानें। विशेष रूप से उस चरण को कवर करने वाले 20-30 डेमो एकत्र करें
फिर से सिखाना
डेटासेट में लक्षित डेमो जोड़ें। स्क्रैच से पुनः प्रशिक्षित करें या सर्वोत्तम चेकपॉइंट को फाइन-ट्यून करें
मूल्यांकन करना
फिर से 10 एपिसोड चलाएं. क्या पूर्ण सफलता दर में सुधार हुआ? अगले विफलता चरण की ओर बढ़ें.
आगे क्या होगा
अब आपके पास एक कार्यशील द्वि-मैन्युअल शिक्षण पाइपलाइन है। क्यूब हैंडऑफ़ नींव है - समान वास्तुकला काफी अधिक जटिल कार्यों को मापती है:
इकाई 6 पूर्ण जब...
आपका DK1 एक संरचित मूल्यांकन रन में कम से कम 6/10 की पूर्ण सफलता दर के साथ क्यूब हैंडऑफ़ कार्य को स्वायत्त रूप से पूरा करता है। आपने सभी विफलता प्रकरणों को चरण (ए/बी/सी/डी) के आधार पर वर्गीकृत किया है और पहचाना है कि अधिकांश विफलताओं के लिए कौन सा चरण जिम्मेदार है। आपने विफलता के वीडियो देखे हैं और स्पष्ट रूप से स्पष्ट कर सकते हैं कि क्या गलत हुआ। आप अपने अगले सुधार पुनरावृत्ति की योजना बनाने के लिए द्वि-मैनुअल डेटा फ्लाईव्हील को अच्छी तरह से समझते हैं।