यूनिट 4: एक नीति को प्रशिक्षित करें - लेरोबोट लर्निंग पाथ

नीति विकल्प

LeRobot तीन उत्पादन-तैयार नीति आर्किटेक्चर शिप करता है। प्रशिक्षण चलाने से पहले एक चुनें - आप बीच में स्विच नहीं कर सकते।

इस पथ के लिए अनुशंसित

ACT

एक्शन चंक्ड ट्रांसफार्मर। निपुण एकल-हाथ हेरफेर के लिए सर्वश्रेष्ठ। GPU पर 1-3 घंटे में ट्रेनें। पूर्वानुमेय हाइपरपैरामीटर. इस का उपयोग करें।

प्रसार नीति

सटीक कार्यों पर उच्च शिखर सटीकता लेकिन प्रशिक्षण और अनुमान लगाने में 3-5 गुना धीमी। आपके पास कार्यशील ACT बेसलाइन होने के बाद इसका उपयोग करें।

स्मोलवीएलए

भाषा-वातानुकूलित वी.एल.ए. जब आपके कार्य के लिए प्राकृतिक भाषा निर्देशों या बहु-कार्य सामान्यीकरण की आवश्यकता हो तो इसका उपयोग करें। अधिक डेटा की आवश्यकता है.

एसीटी प्रशिक्षण कमान

प्रतिस्थापित करें $HF_USER/pick-place-v1 यूनिट 3 से आपके डेटासेट रेपो आईडी के साथ।

स्रोत ~/लेरोबोट-एनवी/बिन/सक्रिय करें पायथन -एम लेरोबोट.स्क्रिप्ट्स.ट्रेन \ --नीति-प्रकार अधिनियम \ --डेटासेट-रेपो-आईडी $HF_USER/पिक-प्लेस-v1 \ --आउटपुट-डीआईआर ~/लेरोबोट-नीतियां/पिक-प्लेस-वी1 \ --कॉन्फिग-ओवरराइड्स \ प्रशिक्षण.संख्या_चरण=50000 \ प्रशिक्षण.eval_freq=5000 \ प्रशिक्षण.save_freq=5000 \ प्रशिक्षण.बैच_आकार=32 \ नीति.चंक_आकार=100 \ नीति.n_action_steps=100

# Add --device cuda if you have a GPU (strongly recommended)
# Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/
# Start this before sleep — it can run unattended

जीपीयू बनाम सीपीयू प्रशिक्षण समय: RTX 3090 (24GB) पर, 50,000 कदम चलने में लगभग 60-80 मिनट लगते हैं। RTX 3080 (10GB) पर, लगभग 90-120 मिनट। सीपीयू पर, 8-12 घंटे की अपेक्षा करें। आवश्यक हार्डवेयर के लिए क्लाउड जीपीयू विकल्प (लैम्ब्डा लैब्स, वास्ट.एआई) $0.50-1.50/घंटा तक चलते हैं।

सिंगल-आर्म पिक-एंड-प्लेस के लिए अनुशंसित हाइपरपैरामीटर

पैरामीटर	अनुशंसित	क्यों
num_steps	50000	एक साधारण पिक-एंड-प्लेस के 50-100 डेमो के लिए पर्याप्त। यदि आपका नुकसान देर से होता है तो इसे बढ़ाकर 80k कर दें।
बैच_आकार	32	सिंगल-आर्म डेटासेट के लिए मानक। यदि आपकी GPU मेमोरी ख़त्म हो जाए तो इसे घटाकर 16 कर दें।
खंड आकार	100	ACT की योजना 100 कदम आगे है। 30एफपीएस पर यह ~3.3 सेकंड है - पिक-एंड-प्लेस के लिए एक अच्छा नियोजन क्षितिज।
n_action_steps	100	चंक_आकार से मेल खाना चाहिए। अनुमान आवृत्ति को कम करता है और निष्पादन को सुचारू बनाता है।
kl_वजन	10	लेरोबोट डिफ़ॉल्ट. जब तक L_kl 20k चरणों के बाद शून्य के करीब न रह जाए तब तक परिवर्तन न करें।
एलआर	1e-5	ACT के लिए LeRobot डिफ़ॉल्ट। यदि पुनर्निर्माण हानि अभिसरण के बजाय दोलन करती है तो 5e-6 से कम।

प्रशिक्षण लॉग पढ़ना

प्रशिक्षण लॉग टर्मिनल और टेन्सरबोर्ड पर प्रिंट होते हैं। दूसरे टर्मिनल में TensorBoard लॉन्च करें:

टेंसरबोर्ड --लॉगडिर ~/लेरोबोट-नीतियाँ/

फिर खोलें http://localhost:6006 आपके ब्राउज़र में. इन वक्रों को देखें:

हानि/पुनर्निर्माण (L_recon)

प्राथमिक प्रशिक्षण संकेत. ~2.5-3.5 से घटकर 0.1 से 50,000 कदम नीचे आना चाहिए। 40,000 कदमों के बाद 0.15 से ऊपर का पठार आमतौर पर इसका मतलब है कि आपके डेटासेट में बहुत अधिक भिन्नता है - इकाई 3 की अच्छी डेमो प्रथाओं की समीक्षा करें और अधिक सुसंगत प्रदर्शनों को रिकॉर्ड करने पर विचार करें।

कैसल/केएल (एल_केएल)

0 से 5-20 के करीब धीरे-धीरे बढ़ता है। यह अपेक्षित व्यवहार है - सीवीएई एक कॉम्पैक्ट शैली एम्बेडिंग सीख रहा है। यदि यह 40 से अधिक है, तो आपके प्रदर्शनों में बहुत अधिक व्यवहारिक विविधता है। यदि 20 हजार कदमों के बाद यह 0 के करीब रहता है, तो सीवीएई सीख नहीं रहा है; kl_weight को 20 तक बढ़ाएँ।

ट्रेन/हानि (कुल हानि)

L_recon + kl_weight × L_kl. प्रारंभिक प्रशिक्षण में L_recon का दबदबा रहा। नीरस रूप से कम होना चाहिए. प्रारंभिक कमी के बाद बढ़ने वाला कुल नुकसान इंगित करता है कि सीखने की दर में गिरावट बहुत आक्रामक है - शेड्यूलर कॉन्फ़िगरेशन की जांच करें।

चेकप्वाइंट प्रबंधन

चेकप्वाइंट हर 5,000 कदम पर बचते हैं ~/lerobot-policies/pick-place-v1/checkpoints/. यह मत मानिए कि अंतिम चेकपॉइंट सबसे अच्छा है। नीति उच्च चरण गणना पर, विशेष रूप से छोटे डेटासेट के साथ, ओवरफिट हो सकती है।

प्रशिक्षण के बाद, अपने सर्वश्रेष्ठ चेकपॉइंट की पहचान करें: यह वह चरण है जहां पठार पर शुरू होने से पहले पुनर्निर्माण अपने न्यूनतम स्तर पर पहुंच गया। 50 प्रदर्शनों के लिए, यह आम तौर पर 35,000-50,000 चरण सीमा में होता है। इस चरण संख्या को सहेजें - आप इसका उपयोग इकाई 5 में करेंगे।

इकाई 4 पूर्ण जब...

प्रशिक्षण ने 50,000 चरण पूरे कर लिए हैं और चौकियाँ बचा ली गई हैं ~/lerobot-policies/pick-place-v1/checkpoints/. अंतिम L_पुनर्निर्माण हानि 0.1 से नीचे है। आपने हानि वक्रों के आधार पर अपने सर्वोत्तम चेकपॉइंट कदम की पहचान की है। आप समझते हैं कि L_kl आपके प्रशिक्षण दौर में क्या कर रहा है। आप इकाई 5 में नीति का मूल्यांकन करने के लिए तैयार हैं।

एक नीति प्रशिक्षित करें