वास्तविक भुजा पर चल रहा अनुमान
परिनियोजन का अर्थ है अपने प्रशिक्षित चेकपॉइंट को वास्तविक समय में चलाना, लाइव कैमरा और संयुक्त अवलोकनों को नेटवर्क में फीड करना और भौतिक बांह पर आउटपुट क्रियाओं को निष्पादित करना। अनुमान स्क्रिप्ट 50Hz पर अवलोकन-क्रिया लूप को संभालती है।
पहले परिनियोजन रन के लिए, अपना हाथ भौतिक ई-स्टॉप के पास रखें। एक ताज़ा तैनात नीति कभी-कभी अप्रत्याशित बदलाव कर सकती है जबकि यह वास्तविक हार्डवेयर वातावरण तक गर्म हो जाती है। पहले 2-3 एपिसोड के लिए यह सामान्य है। उसके बाद व्यवहार स्थिर होना चाहिए।
सुरक्षा लिफाफे और वॉचडॉग टाइमर सहित व्यापक तैनाती और उत्पादन मार्गदर्शन के लिए, देखें ओपनआर्म प्रोडक्शन गाइड.
मूल्यांकन पद्धति
अपनी नीति का मूल्यांकन अनौपचारिक रूप से न करें। एक संरचित प्रोटोकॉल का उपयोग करें - यह जानने का एकमात्र तरीका है कि क्या आपके द्वारा किए गए बदलाव (अधिक डेटा, अलग चेकपॉइंट, अलग कार्य फ़्रेमिंग) से वास्तव में प्रदर्शन में सुधार हुआ है:
| प्रोटोकॉल आइटम | विनिर्देश |
|---|---|
| प्रति मूल्यांकन एपिसोड की संख्या | न्यूनतम 10, उच्च-आत्मविश्वास परिणामों के लिए 20 |
| वस्तु आरंभिक स्थिति | तय। टेप मार्क का प्रयोग करें. हर एपिसोड में एक ही स्थिति. |
| वस्तु प्रकार | प्रशिक्षण के समान वस्तु। प्रकाश को प्रशिक्षण स्थितियों से मेल खाना चाहिए। |
| सफलता के रूप में क्या गिना जाता है | वस्तु को लक्ष्य से 3 सेमी के भीतर रखा गया। भुजा घर लौट आती है. प्रकरण के दौरान कोई मानवीय हस्तक्षेप नहीं। |
| विफलता वर्गीकरण | लॉग विफलता प्रकार: चूकी हुई पकड़ / गिराई गई वस्तु / गलत लक्ष्य / टाइमआउट। यह आपको बताता है कि क्या ठीक करना है. |
| रिपोर्ट मीट्रिक | सफलता दर = सफल एपिसोड/कुल एपिसोड। एपिसोड संख्या के साथ रिपोर्ट करें (उदाहरण के लिए, "7/10 = 70%)"। |
डेटा फ्लाईव्हील: बेहतर कैसे बनें
एक नीति जो 7/10 बार सफल होती है वह एक अच्छी शुरुआत है - लेकिन 9/10 या उससे आगे का रास्ता डेटा फ्लाईव्हील के माध्यम से होता है। यह उत्पादन में रोबोट सीखने का मुख्य लूप है:
इकट्ठा करना
प्रदर्शनों को रिकॉर्ड करें, जिसमें विफलता के वे मामले भी शामिल हैं जिनसे आपकी वर्तमान नीति जूझ रही है
रेलगाड़ी
जोड़े गए नए प्रदर्शनों के साथ अपने विस्तारित डेटासेट को पुनः प्रशिक्षित करें (या ठीक करें)।
मूल्यांकन करना
संरचित eval प्रोटोकॉल चलाएँ। क्या सफलता दर में सुधार हुआ? विफलता के कौन से तरीके बचे हैं?
विश्लेषण करें
विफलता के वीडियो देखें. उस विशिष्ट स्थिति की पहचान करें जहां नीति विफल हो जाती है। वहां लक्षित डेटा एकत्र करें.
फ्लाईव्हील की मुख्य अंतर्दृष्टि: लक्षित डेटा यादृच्छिक डेटा को मात देता है. 50 और यादृच्छिक प्रदर्शनों को रिकॉर्ड करने के बजाय, अपने विफलता वीडियो देखें और उस सटीक क्षण की पहचान करें जब चीजें गलत हो जाती हैं। 20 प्रदर्शनों को रिकॉर्ड करें जो विशेष रूप से उस कठिन स्थिति को कवर करते हैं (उदाहरण के लिए, कार्यक्षेत्र के किनारे पर पकड़, या असामान्य कोण पर वस्तु)। 50 यादृच्छिक डेमो की तुलना में 20 लक्षित डेमो के साथ आपकी सफलता दर में तेजी से सुधार होगा।
सामान्य विफलता मोड और उन्हें कैसे ठीक करें
- हाथ पकड़ने की स्थिति से आगे निकल जाता है: नीति के कार्य खंड बहुत बड़े हैं या आपके डेटा में उच्च वेग भिन्नता थी। ग्रैस्प पॉइंट के पास धीमी गति से 10 और डेमो रिकॉर्ड करें। या कम करें
chunk_sizeप्रशिक्षण विन्यास में 100 से 50 तक। - आर्म प्रशिक्षण वस्तु पर सफल होता है लेकिन कुछ अलग वस्तुओं पर विफल रहता है: आपके प्रशिक्षण डेटा में वस्तु स्थिति विविधता का अभाव था। 10 सेमी के दायरे में 5 अलग-अलग स्थानों पर ऑब्जेक्ट के साथ 20 डेमो रिकॉर्ड करें। यह नीति को सामान्यीकरण करना सिखाता है।
- नीति रुक जाती है या बार-बार प्रस्ताव उत्पन्न करती है: CVAE स्टाइल वैरिएबल ढह रहा है। इसका मतलब अक्सर यह होता है कि आपके डेटासेट में बहुत अधिक भिन्नता है - मॉडल को एक सुसंगत शैली नहीं मिल सकती है। मिश्रित प्रदर्शनों (विभिन्न ऑपरेटरों, विभिन्न कार्य फ़्रेमिंग) की जाँच करें और अपने डेटासेट को साफ़ करें।
इकाई 6 पूर्ण जब...
आपका हाथ एक संरचित मूल्यांकन दौड़ में 10 में से 7 बार पिक-एंड-प्लेस कार्य को स्वायत्त रूप से पूरा करता है। आपने तीन विफलता वाले वीडियो देखे हैं और पहचान लिया है कि क्या ग़लत हुआ। आप अपने अगले सुधार पुनरावृत्ति की योजना बनाने के लिए डेटा फ्लाईव्हील को अच्छी तरह से समझते हैं। यह संरचित पथ का अंत है - लेकिन यह आपके रोबोट सीखने के अभ्यास की शुरुआत है।
आगे क्या होगा
आपके पास बुनियाद है. यहां बताया गया है कि यहां से कहां जाना है: