नीति विकल्प
LeRobot तीन उत्पादन-तैयार नीति आर्किटेक्चर शिप करता है। प्रशिक्षण चलाने से पहले एक चुनें - आप बीच में स्विच नहीं कर सकते।
ACT
एक्शन चंक्ड ट्रांसफार्मर। निपुण एकल-हाथ हेरफेर के लिए सर्वश्रेष्ठ। GPU पर 1-3 घंटे में ट्रेनें। पूर्वानुमेय हाइपरपैरामीटर. इस का उपयोग करें।
प्रसार नीति
सटीक कार्यों पर उच्च शिखर सटीकता लेकिन प्रशिक्षण और अनुमान लगाने में 3-5 गुना धीमी। आपके पास कार्यशील ACT बेसलाइन होने के बाद इसका उपयोग करें।
स्मोलवीएलए
भाषा-वातानुकूलित वी.एल.ए. जब आपके कार्य के लिए प्राकृतिक भाषा निर्देशों या बहु-कार्य सामान्यीकरण की आवश्यकता हो तो इसका उपयोग करें। अधिक डेटा की आवश्यकता है.
एसीटी प्रशिक्षण कमान
प्रतिस्थापित करें $HF_USER/pick-place-v1 यूनिट 3 से आपके डेटासेट रेपो आईडी के साथ।
सिंगल-आर्म पिक-एंड-प्लेस के लिए अनुशंसित हाइपरपैरामीटर
| पैरामीटर | अनुशंसित | क्यों |
|---|---|---|
| num_steps | 50000 | एक साधारण पिक-एंड-प्लेस के 50-100 डेमो के लिए पर्याप्त। यदि आपका नुकसान देर से होता है तो इसे बढ़ाकर 80k कर दें। |
| बैच_आकार | 32 | सिंगल-आर्म डेटासेट के लिए मानक। यदि आपकी GPU मेमोरी ख़त्म हो जाए तो इसे घटाकर 16 कर दें। |
| खंड आकार | 100 | ACT की योजना 100 कदम आगे है। 30एफपीएस पर यह ~3.3 सेकंड है - पिक-एंड-प्लेस के लिए एक अच्छा नियोजन क्षितिज। |
| n_action_steps | 100 | चंक_आकार से मेल खाना चाहिए। अनुमान आवृत्ति को कम करता है और निष्पादन को सुचारू बनाता है। |
| kl_वजन | 10 | लेरोबोट डिफ़ॉल्ट. जब तक L_kl 20k चरणों के बाद शून्य के करीब न रह जाए तब तक परिवर्तन न करें। |
| एलआर | 1e-5 | ACT के लिए LeRobot डिफ़ॉल्ट। यदि पुनर्निर्माण हानि अभिसरण के बजाय दोलन करती है तो 5e-6 से कम। |
प्रशिक्षण लॉग पढ़ना
प्रशिक्षण लॉग टर्मिनल और टेन्सरबोर्ड पर प्रिंट होते हैं। दूसरे टर्मिनल में TensorBoard लॉन्च करें:
फिर खोलें http://localhost:6006 आपके ब्राउज़र में. इन वक्रों को देखें:
हानि/पुनर्निर्माण (L_recon)
प्राथमिक प्रशिक्षण संकेत. ~2.5-3.5 से घटकर 0.1 से 50,000 कदम नीचे आना चाहिए। 40,000 कदमों के बाद 0.15 से ऊपर का पठार आमतौर पर इसका मतलब है कि आपके डेटासेट में बहुत अधिक भिन्नता है - इकाई 3 की अच्छी डेमो प्रथाओं की समीक्षा करें और अधिक सुसंगत प्रदर्शनों को रिकॉर्ड करने पर विचार करें।
कैसल/केएल (एल_केएल)
0 से 5-20 के करीब धीरे-धीरे बढ़ता है। यह अपेक्षित व्यवहार है - सीवीएई एक कॉम्पैक्ट शैली एम्बेडिंग सीख रहा है। यदि यह 40 से अधिक है, तो आपके प्रदर्शनों में बहुत अधिक व्यवहारिक विविधता है। यदि 20 हजार कदमों के बाद यह 0 के करीब रहता है, तो सीवीएई सीख नहीं रहा है; kl_weight को 20 तक बढ़ाएँ।
ट्रेन/हानि (कुल हानि)
L_recon + kl_weight × L_kl. प्रारंभिक प्रशिक्षण में L_recon का दबदबा रहा। नीरस रूप से कम होना चाहिए. प्रारंभिक कमी के बाद बढ़ने वाला कुल नुकसान इंगित करता है कि सीखने की दर में गिरावट बहुत आक्रामक है - शेड्यूलर कॉन्फ़िगरेशन की जांच करें।
चेकप्वाइंट प्रबंधन
चेकप्वाइंट हर 5,000 कदम पर बचते हैं ~/lerobot-policies/pick-place-v1/checkpoints/. यह मत मानिए कि अंतिम चेकपॉइंट सबसे अच्छा है। नीति उच्च चरण गणना पर, विशेष रूप से छोटे डेटासेट के साथ, ओवरफिट हो सकती है।
प्रशिक्षण के बाद, अपने सर्वश्रेष्ठ चेकपॉइंट की पहचान करें: यह वह चरण है जहां पठार पर शुरू होने से पहले पुनर्निर्माण अपने न्यूनतम स्तर पर पहुंच गया। 50 प्रदर्शनों के लिए, यह आम तौर पर 35,000-50,000 चरण सीमा में होता है। इस चरण संख्या को सहेजें - आप इसका उपयोग इकाई 5 में करेंगे।
इकाई 4 पूर्ण जब...
प्रशिक्षण ने 50,000 चरण पूरे कर लिए हैं और चौकियाँ बचा ली गई हैं ~/lerobot-policies/pick-place-v1/checkpoints/. अंतिम L_पुनर्निर्माण हानि 0.1 से नीचे है। आपने हानि वक्रों के आधार पर अपने सर्वोत्तम चेकपॉइंट कदम की पहचान की है। आप समझते हैं कि L_kl आपके प्रशिक्षण दौर में क्या कर रहा है। आप इकाई 5 में नीति का मूल्यांकन करने के लिए तैयार हैं।