यूनिट 5: अपनी नीति का मूल्यांकन करें - लेरोबोट लर्निंग पाथ

सिमुलेशन मूल्यांकन

हमेशा पहले सिमुलेशन में मूल्यांकन करें, भले ही आपके पास असली रोबोट हो। सिम मूल्यांकन तेज़, सुरक्षित है, और आपको एक प्रतिलिपि प्रस्तुत करने योग्य बेसलाइन नंबर देता है जिसकी तुलना आप पुनः प्रशिक्षण के बाद कर सकते हैं।

स्रोत ~/लेरोबोट-एनवी/बिन/सक्रिय करें

# Evaluate your best checkpoint (replace step_050000 with your checkpoint step)
पायथन -एम लेरोबोट.स्क्रिप्ट्स.eval \ --पूर्व-प्रशिक्षित-नीति-नाम-या-पथ \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --env.name जिम_पुश्त/PushT-v0 \ --eval.n-एपिसोड 20 \ --eval.use-async-envs ग़लत

# Outputs: success_rate, mean_reward, episode_videos/

क्या उम्मीद करें: 50 सिम प्रदर्शनों पर एक अच्छी तरह से प्रशिक्षित नीति को म्यूजोको में 60-85% सफलता दर हासिल करनी चाहिए। 40% से नीचे डेटासेट गुणवत्ता समस्या का सुझाव देता है। 85% से ऊपर का मतलब है कि कार्य बहुत आसान है या सिम वातावरण बहुत क्षमाशील है - एक कठिन संस्करण आज़माएँ।

वास्तविक रोबोट सुरक्षा चेकलिस्ट

यदि आप वास्तविक रोबोट पर मूल्यांकन कर रहे हैं, तो अपने पहले रोलआउट से पहले इस चेकलिस्ट को देखें। एक अपरीक्षित नीति अप्रत्याशित तरीके से आगे बढ़ सकती है।

किसी भी ऑब्जेक्ट का कार्यक्षेत्र साफ़ करें जो कार्य का हिस्सा नहीं है। नीति ने एक विशिष्ट दृश्य संदर्भ में कार्य करना सीखा - अप्रत्याशित वस्तुएं अनियमित व्यवहार का कारण बन सकती हैं।
आपातकालीन स्टॉप (ई-स्टॉप) पर रहें या पूरे मूल्यांकन सत्र के लिए Ctrl+C दबाने के लिए तैयार रहें। चल रही नीति से दूर न जाएं.
अधिकतम 50% तक सीमित गति से प्रारंभ करें। यदि पहला परीक्षण झटकेदार या अस्पष्ट लगता है तो इसे घटाकर 30% कर दें।
वस्तुओं को अपने प्रशिक्षण कार्यक्षेत्र सेटअप से बिल्कुल मेल खाने के लिए रखें। समान कैमरा कोण, समान प्रकाश व्यवस्था, समान वस्तु रंगों का उपयोग करें। वास्तविक दुनिया में शून्य सफलता दर का सबसे आम कारण वितरण बदलाव है।
कभी भी अपने रोबोट जोड़ों की भौतिक स्टॉप सीमा से ऊपर मूल्यांकन न करें। पहले रन से पहले अपने रोबोट कॉन्फ़िगरेशन में इन्हें जांचें।

वास्तविक रोबोट मूल्यांकन प्रोटोकॉल

ठीक 20 परीक्षण चलाएँ। यह आपको विश्वसनीय सफलता दर अनुमान (95% विश्वास स्तर पर ±10%) के लिए पर्याप्त नमूने देता है। प्रत्येक परीक्षण को वीडियो पर रिकॉर्ड करें - विफलता मोड का निदान करने के लिए आपको फुटेज की आवश्यकता होगी।

# Run the policy on your real robot
पायथन -एम लेरोबोट.स्क्रिप्ट्स.कंट्रोल_रोबोट \ --रोबोट-पथ लेरोबोट/कॉन्फ़िग्स/रोबोट/so100.yaml \ --नियंत्रण-मोड eval \ --पूर्व-प्रशिक्षित-नीति-नाम-या-पथ \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --eval.n-एपिसोड 20 \ --रिकॉर्ड-वीडियो 1

प्रत्येक परीक्षण के बाद, इसे मैन्युअल रूप से स्कोर करें: पूर्ण कार्य सफलता के लिए 1, किसी भी विफलता के लिए 0 (आंशिक पकड़, गिरावट, चूक)। आपकी सफलता दर 20 से विभाजित योग है।

विफलता मोड का निदान

अपनी वीडियो रिकॉर्डिंग देखें और विफलताओं को वर्गीकृत करें। अधिकांश विफलताएँ तीन श्रेणियों में से एक में आती हैं:

आधार सामग्री की गुणवत्ता

असंगत दृष्टिकोण प्रक्षेपवक्र - हाथ कभी भी पूरी तरह से पकड़ में नहीं आता है

यह नीति आपके प्रशिक्षण डेटा में कई समझ वाली रणनीतियों में औसत है। ऐसा तब होता है जब कुछ प्रदर्शन बाईं ओर से आते हैं और अन्य दाईं ओर से, या जब ग्रिपर बंद करने का समय असंगत होता है। समाधान: सभी प्रदर्शनों के दौरान एक एकल, सुविचारित रणनीति के साथ पुनः रिकॉर्ड करें।

मॉडल क्षमता

प्रक्षेपवक्र उचित दिखता है लेकिन सटीकता में लगातार 1-2 सेमी की कमी होती है

मॉडल सही व्यवहार सीख रहा है लेकिन उसमें सटीक होने की क्षमता का अभाव है। ऐसा तब होता है जब चंक_साइज बहुत छोटा होता है (पर्याप्त नियोजन क्षितिज नहीं) या जब डिम_फीडफॉरवर्ड बहुत छोटा होता है। ठीक करें: चंक_साइज को 150 तक बढ़ाएं, फिर से प्रशिक्षित करें। या नेटवर्क को नियमित करने के लिए अधिक विविध प्रदर्शन जोड़ें।

वितरण शिफ्ट

कुछ स्थितियों में पूरी तरह से काम करता है, दूसरों में पूरी तरह विफल रहता है

मूल्यांकन के दौरान वस्तु स्थिति आपके प्रशिक्षण डेटा के वितरण से बाहर हैं। नीति ने पहले उन पदों को नहीं देखा है। ठीक करें: अधिक विविध ऑब्जेक्ट स्थितियों के साथ अधिक प्रदर्शन एकत्र करें, या अपने मूल्यांकन को उन स्थितियों तक सीमित रखें जो आपके प्रशिक्षण डेटा में अच्छी तरह से दर्शाए गए हैं।

इकाई 5 पूर्ण जब...

आपने 20 मूल्यांकन परीक्षण (सिम में या अपने वास्तविक रोबोट पर) चलाए हैं और सफलता दर मापी है। आपने सभी विफलता-मोड वीडियो देखे हैं और पहचाना है कि क्या प्राथमिक विफलता डेटा गुणवत्ता, मॉडल क्षमता या वितरण बदलाव है। आपके पास यह निदान लिखा हुआ है - आप इसका उपयोग इकाई 6 में अपने डेटा संग्रह का मार्गदर्शन करने के लिए करेंगे।