यूनिट 6: तैनाती और सुधार - ओपनआर्म लर्निंग पाथ

वास्तविक भुजा पर चल रहा अनुमान

परिनियोजन का अर्थ है अपने प्रशिक्षित चेकपॉइंट को वास्तविक समय में चलाना, लाइव कैमरा और संयुक्त अवलोकनों को नेटवर्क में फीड करना और भौतिक बांह पर आउटपुट क्रियाओं को निष्पादित करना। अनुमान स्क्रिप्ट 50Hz पर अवलोकन-क्रिया लूप को संभालती है।

स्रोत ~/ओपनआर्म-एनवी/बिन/सक्रिय करें

# Make sure ROS 2 is running (real hardware mode, from Unit 1)

पायथन -एम लेरोबोट.स्क्रिप्ट्स.eval \ --पॉलिसी-चेकपॉइंट ~/ओपनआर्म-पॉलिसीज़/पिक-एंड-प्लेस-v1/चेकपॉइंट_XXXXX \ --डिवाइस क्यूडा \ --संख्या-eval-एपिसोड 10 \ --रिकॉर्ड-वीडियो \ --आउटपुट-डीआईआर ~/ओपनआर्म-इवल्स/v1

# Replace XXXXX with your best checkpoint step number from Unit 5
# --record-video saves each episode as an mp4 for review

पहले परिनियोजन रन के लिए, अपना हाथ भौतिक ई-स्टॉप के पास रखें। एक ताज़ा तैनात नीति कभी-कभी अप्रत्याशित बदलाव कर सकती है जबकि यह वास्तविक हार्डवेयर वातावरण तक गर्म हो जाती है। पहले 2-3 एपिसोड के लिए यह सामान्य है। उसके बाद व्यवहार स्थिर होना चाहिए।

सुरक्षा लिफाफे और वॉचडॉग टाइमर सहित व्यापक तैनाती और उत्पादन मार्गदर्शन के लिए, देखें ओपनआर्म प्रोडक्शन गाइड.

मूल्यांकन पद्धति

अपनी नीति का मूल्यांकन अनौपचारिक रूप से न करें। एक संरचित प्रोटोकॉल का उपयोग करें - यह जानने का एकमात्र तरीका है कि क्या आपके द्वारा किए गए बदलाव (अधिक डेटा, अलग चेकपॉइंट, अलग कार्य फ़्रेमिंग) से वास्तव में प्रदर्शन में सुधार हुआ है:

प्रोटोकॉल आइटम	विनिर्देश
प्रति मूल्यांकन एपिसोड की संख्या	न्यूनतम 10, उच्च-आत्मविश्वास परिणामों के लिए 20
वस्तु आरंभिक स्थिति	तय। टेप मार्क का प्रयोग करें. हर एपिसोड में एक ही स्थिति.
वस्तु प्रकार	प्रशिक्षण के समान वस्तु। प्रकाश को प्रशिक्षण स्थितियों से मेल खाना चाहिए।
सफलता के रूप में क्या गिना जाता है	वस्तु को लक्ष्य से 3 सेमी के भीतर रखा गया। भुजा घर लौट आती है. प्रकरण के दौरान कोई मानवीय हस्तक्षेप नहीं।
विफलता वर्गीकरण	लॉग विफलता प्रकार: चूकी हुई पकड़ / गिराई गई वस्तु / गलत लक्ष्य / टाइमआउट। यह आपको बताता है कि क्या ठीक करना है.
रिपोर्ट मीट्रिक	सफलता दर = सफल एपिसोड/कुल एपिसोड। एपिसोड संख्या के साथ रिपोर्ट करें (उदाहरण के लिए, "7/10 = 70%)"।

डेटा फ्लाईव्हील: बेहतर कैसे बनें

एक नीति जो 7/10 बार सफल होती है वह एक अच्छी शुरुआत है - लेकिन 9/10 या उससे आगे का रास्ता डेटा फ्लाईव्हील के माध्यम से होता है। यह उत्पादन में रोबोट सीखने का मुख्य लूप है:

इकट्ठा करना

प्रदर्शनों को रिकॉर्ड करें, जिसमें विफलता के वे मामले भी शामिल हैं जिनसे आपकी वर्तमान नीति जूझ रही है

रेलगाड़ी

जोड़े गए नए प्रदर्शनों के साथ अपने विस्तारित डेटासेट को पुनः प्रशिक्षित करें (या ठीक करें)।

मूल्यांकन करना

संरचित eval प्रोटोकॉल चलाएँ। क्या सफलता दर में सुधार हुआ? विफलता के कौन से तरीके बचे हैं?

विश्लेषण करें

विफलता के वीडियो देखें. उस विशिष्ट स्थिति की पहचान करें जहां नीति विफल हो जाती है। वहां लक्षित डेटा एकत्र करें.

फ्लाईव्हील की मुख्य अंतर्दृष्टि: लक्षित डेटा यादृच्छिक डेटा को मात देता है. 50 और यादृच्छिक प्रदर्शनों को रिकॉर्ड करने के बजाय, अपने विफलता वीडियो देखें और उस सटीक क्षण की पहचान करें जब चीजें गलत हो जाती हैं। 20 प्रदर्शनों को रिकॉर्ड करें जो विशेष रूप से उस कठिन स्थिति को कवर करते हैं (उदाहरण के लिए, कार्यक्षेत्र के किनारे पर पकड़, या असामान्य कोण पर वस्तु)। 50 यादृच्छिक डेमो की तुलना में 20 लक्षित डेमो के साथ आपकी सफलता दर में तेजी से सुधार होगा।

सामान्य विफलता मोड और उन्हें कैसे ठीक करें

हाथ पकड़ने की स्थिति से आगे निकल जाता है: नीति के कार्य खंड बहुत बड़े हैं या आपके डेटा में उच्च वेग भिन्नता थी। ग्रैस्प पॉइंट के पास धीमी गति से 10 और डेमो रिकॉर्ड करें। या कम करें chunk_size प्रशिक्षण विन्यास में 100 से 50 तक।
आर्म प्रशिक्षण वस्तु पर सफल होता है लेकिन कुछ अलग वस्तुओं पर विफल रहता है: आपके प्रशिक्षण डेटा में वस्तु स्थिति विविधता का अभाव था। 10 सेमी के दायरे में 5 अलग-अलग स्थानों पर ऑब्जेक्ट के साथ 20 डेमो रिकॉर्ड करें। यह नीति को सामान्यीकरण करना सिखाता है।
नीति रुक जाती है या बार-बार प्रस्ताव उत्पन्न करती है: CVAE स्टाइल वैरिएबल ढह रहा है। इसका मतलब अक्सर यह होता है कि आपके डेटासेट में बहुत अधिक भिन्नता है - मॉडल को एक सुसंगत शैली नहीं मिल सकती है। मिश्रित प्रदर्शनों (विभिन्न ऑपरेटरों, विभिन्न कार्य फ़्रेमिंग) की जाँच करें और अपने डेटासेट को साफ़ करें।

इकाई 6 पूर्ण जब...

आपका हाथ एक संरचित मूल्यांकन दौड़ में 10 में से 7 बार पिक-एंड-प्लेस कार्य को स्वायत्त रूप से पूरा करता है। आपने तीन विफलता वाले वीडियो देखे हैं और पहचान लिया है कि क्या ग़लत हुआ। आप अपने अगले सुधार पुनरावृत्ति की योजना बनाने के लिए डेटा फ्लाईव्हील को अच्छी तरह से समझते हैं। यह संरचित पथ का अंत है - लेकिन यह आपके रोबोट सीखने के अभ्यास की शुरुआत है।

तुमने यह किया।

आप एक रोबोट को अनबॉक्स करने से लेकर प्रशिक्षण और वास्तविक नकल सीखने की नीति को लागू करने तक चले गए हैं। यह आपको उन 99% लोगों से आगे रखता है जिन्होंने कभी रोबोट का हाथ छुआ है। आपने यहां जो बनाया है - टेलीऑपरेशन सेटअप, डेटा पाइपलाइन, प्रशिक्षण वर्कफ़्लो - किसी भी कार्य और किसी भी हार्डवेयर के लिए स्केल।

आगे क्या होगा

आपके पास बुनियाद है. यहां बताया गया है कि यहां से कहां जाना है:

तैनात करें और सुधारें