नीति विकल्प

LeRobot तीन उत्पादन-तैयार नीति आर्किटेक्चर शिप करता है। प्रशिक्षण चलाने से पहले एक चुनें - आप बीच में स्विच नहीं कर सकते।

प्रसार नीति

सटीक कार्यों पर उच्च शिखर सटीकता लेकिन प्रशिक्षण और अनुमान लगाने में 3-5 गुना धीमी। आपके पास कार्यशील ACT बेसलाइन होने के बाद इसका उपयोग करें।

स्मोलवीएलए

भाषा-वातानुकूलित वी.एल.ए. जब आपके कार्य के लिए प्राकृतिक भाषा निर्देशों या बहु-कार्य सामान्यीकरण की आवश्यकता हो तो इसका उपयोग करें। अधिक डेटा की आवश्यकता है.

एसीटी प्रशिक्षण कमान

प्रतिस्थापित करें $HF_USER/pick-place-v1 यूनिट 3 से आपके डेटासेट रेपो आईडी के साथ।

स्रोत ~/लेरोबोट-एनवी/बिन/सक्रिय करें पायथन -एम लेरोबोट.स्क्रिप्ट्स.ट्रेन \ --नीति-प्रकार अधिनियम \ --डेटासेट-रेपो-आईडी $HF_USER/पिक-प्लेस-v1 \ --आउटपुट-डीआईआर ~/लेरोबोट-नीतियां/पिक-प्लेस-वी1 \ --कॉन्फिग-ओवरराइड्स \ प्रशिक्षण.संख्या_चरण=50000 \ प्रशिक्षण.eval_freq=5000 \ प्रशिक्षण.save_freq=5000 \ प्रशिक्षण.बैच_आकार=32 \ नीति.चंक_आकार=100 \ नीति.n_action_steps=100 # Add --device cuda if you have a GPU (strongly recommended) # Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/ # Start this before sleep — it can run unattended
जीपीयू बनाम सीपीयू प्रशिक्षण समय: RTX 3090 (24GB) पर, 50,000 कदम चलने में लगभग 60-80 मिनट लगते हैं। RTX 3080 (10GB) पर, लगभग 90-120 मिनट। सीपीयू पर, 8-12 घंटे की अपेक्षा करें। आवश्यक हार्डवेयर के लिए क्लाउड जीपीयू विकल्प (लैम्ब्डा लैब्स, वास्ट.एआई) $0.50-1.50/घंटा तक चलते हैं।

सिंगल-आर्म पिक-एंड-प्लेस के लिए अनुशंसित हाइपरपैरामीटर

पैरामीटर अनुशंसित क्यों
num_steps50000एक साधारण पिक-एंड-प्लेस के 50-100 डेमो के लिए पर्याप्त। यदि आपका नुकसान देर से होता है तो इसे बढ़ाकर 80k कर दें।
बैच_आकार32सिंगल-आर्म डेटासेट के लिए मानक। यदि आपकी GPU मेमोरी ख़त्म हो जाए तो इसे घटाकर 16 कर दें।
खंड आकार100ACT की योजना 100 कदम आगे है। 30एफपीएस पर यह ~3.3 सेकंड है - पिक-एंड-प्लेस के लिए एक अच्छा नियोजन क्षितिज।
n_action_steps100चंक_आकार से मेल खाना चाहिए। अनुमान आवृत्ति को कम करता है और निष्पादन को सुचारू बनाता है।
kl_वजन10लेरोबोट डिफ़ॉल्ट. जब तक L_kl 20k चरणों के बाद शून्य के करीब न रह जाए तब तक परिवर्तन न करें।
एलआर1e-5ACT के लिए LeRobot डिफ़ॉल्ट। यदि पुनर्निर्माण हानि अभिसरण के बजाय दोलन करती है तो 5e-6 से कम।

प्रशिक्षण लॉग पढ़ना

प्रशिक्षण लॉग टर्मिनल और टेन्सरबोर्ड पर प्रिंट होते हैं। दूसरे टर्मिनल में TensorBoard लॉन्च करें:

टेंसरबोर्ड --लॉगडिर ~/लेरोबोट-नीतियाँ/

फिर खोलें http://localhost:6006 आपके ब्राउज़र में. इन वक्रों को देखें:

हानि/पुनर्निर्माण (L_recon)

प्राथमिक प्रशिक्षण संकेत. ~2.5-3.5 से घटकर 0.1 से 50,000 कदम नीचे आना चाहिए। 40,000 कदमों के बाद 0.15 से ऊपर का पठार आमतौर पर इसका मतलब है कि आपके डेटासेट में बहुत अधिक भिन्नता है - इकाई 3 की अच्छी डेमो प्रथाओं की समीक्षा करें और अधिक सुसंगत प्रदर्शनों को रिकॉर्ड करने पर विचार करें।

कैसल/केएल (एल_केएल)

0 से 5-20 के करीब धीरे-धीरे बढ़ता है। यह अपेक्षित व्यवहार है - सीवीएई एक कॉम्पैक्ट शैली एम्बेडिंग सीख रहा है। यदि यह 40 से अधिक है, तो आपके प्रदर्शनों में बहुत अधिक व्यवहारिक विविधता है। यदि 20 हजार कदमों के बाद यह 0 के करीब रहता है, तो सीवीएई सीख नहीं रहा है; kl_weight को 20 तक बढ़ाएँ।

ट्रेन/हानि (कुल हानि)

L_recon + kl_weight × L_kl. प्रारंभिक प्रशिक्षण में L_recon का दबदबा रहा। नीरस रूप से कम होना चाहिए. प्रारंभिक कमी के बाद बढ़ने वाला कुल नुकसान इंगित करता है कि सीखने की दर में गिरावट बहुत आक्रामक है - शेड्यूलर कॉन्फ़िगरेशन की जांच करें।

चेकप्वाइंट प्रबंधन

चेकप्वाइंट हर 5,000 कदम पर बचते हैं ~/lerobot-policies/pick-place-v1/checkpoints/. यह मत मानिए कि अंतिम चेकपॉइंट सबसे अच्छा है। नीति उच्च चरण गणना पर, विशेष रूप से छोटे डेटासेट के साथ, ओवरफिट हो सकती है।

प्रशिक्षण के बाद, अपने सर्वश्रेष्ठ चेकपॉइंट की पहचान करें: यह वह चरण है जहां पठार पर शुरू होने से पहले पुनर्निर्माण अपने न्यूनतम स्तर पर पहुंच गया। 50 प्रदर्शनों के लिए, यह आम तौर पर 35,000-50,000 चरण सीमा में होता है। इस चरण संख्या को सहेजें - आप इसका उपयोग इकाई 5 में करेंगे।

इकाई 4 पूर्ण जब...

प्रशिक्षण ने 50,000 चरण पूरे कर लिए हैं और चौकियाँ बचा ली गई हैं ~/lerobot-policies/pick-place-v1/checkpoints/. अंतिम L_पुनर्निर्माण हानि 0.1 से नीचे है। आपने हानि वक्रों के आधार पर अपने सर्वोत्तम चेकपॉइंट कदम की पहचान की है। आप समझते हैं कि L_kl आपके प्रशिक्षण दौर में क्या कर रहा है। आप इकाई 5 में नीति का मूल्यांकन करने के लिए तैयार हैं।