यूनिट 5: अपनी पहली नीति को प्रशिक्षित करें - ओपनआर्म लर्निंग पाथ

नकल सीखना वास्तव में क्या करता है

प्रशिक्षण कमांड चलाने से पहले, यह समझने के लिए दो मिनट का समय लें कि मॉडल वास्तव में क्या सीख रहा है। अनुकरण शिक्षण एक नीति नेटवर्क को टिप्पणियों (कैमरा छवियां + वर्तमान संयुक्त स्थिति) को कार्यों (अगले संयुक्त कोण) पर मैप करने के लिए प्रशिक्षित करता है। नेटवर्क को कभी भी इनाम संकेत नहीं मिलता है - यह केवल आपके प्रदर्शन को देखता है और समान स्थितियों में आपके द्वारा किए गए कार्यों के वितरण को पुन: उत्पन्न करना सीखता है।

एसीटी (ट्रांसफॉर्मर्स के साथ एक्शन चंकिंग) भविष्यवाणी करता है टुकड़ा एक कदम के बजाय एक बार में 100 भविष्य की कार्रवाइयां। यह पूरे प्रकरण में त्रुटि संचय को रोकता है: भले ही एक व्यक्तिगत भविष्यवाणी थोड़ी दूर हो, खंड एक स्थिर प्रक्षेपवक्र बफर प्रदान करता है। इसके बाद यह हर 100 टाइमस्टेप (50 हर्ट्ज पर 2 सेकंड) की पुन: योजना बनाता है। यही कारण है कि ACT सामान्य व्यवहार क्लोनिंग की तुलना में लंबे कार्यों को बेहतर ढंग से संभालता है।

संपूर्ण सैद्धांतिक पृष्ठभूमि के लिए पढ़ें अनुकरण सीखने की बुनियादी बातें रोबोटिक्स लाइब्रेरी में.

जीपीयू या सीपीयू?

8GB+ VRAM के साथ NVIDIA GPU पर प्रशिक्षण में 100k चरणों के लिए लगभग 45 मिनट लगते हैं। सीपीयू पर प्रशिक्षण में समान अवधि के लिए 3-4 घंटे लगते हैं। दोनों समान मॉडल गुणवत्ता उत्पन्न करते हैं - GPU बहुत तेज़ है। यदि आपके पास स्थानीय GPU नहीं है, तो प्रशिक्षण कमांड क्लाउड इंस्टेंस (A100 रनटाइम के साथ लैम्ब्डा लैब्स या Google Colab) पर समान रूप से काम करता है। निर्देश LeRobot रेपो के README में हैं।

अपने डेटासेट पर ACT को प्रशिक्षित करें

अपने आभासी वातावरण से प्रशिक्षण स्क्रिप्ट चलाएँ। नीचे दिए गए कॉन्फ़िगरेशन मान OpenArm पर 50-एपिसोड पिक-एंड-प्लेस डेटासेट के लिए कैलिब्रेट किए गए हैं - उन्हें अपने पहले रन के लिए न बदलें:

स्रोत ~/ओपनआर्म-एनवी/बिन/सक्रिय करें पायथन -एम लेरोबोट.स्क्रिप्ट्स.ट्रेन \ --डेटासेट-पथ ~/ओपनआर्म-डेटासेट/पिक-एंड-प्लेस \ --नीति अधिनियम \ --बैच-आकार 8 \ --lr 1e-5 \ --संख्या-ट्रेन-चरण 100000 \ --eval-आवृत्ति 5000 \ --सहेजें-आवृत्ति 10000 \ --लॉग-आवृत्ति 500 \ --आउटपुट-डीआईआर ~/ओपनआर्म-नीतियां/पिक-एंड-प्लेस-v1

# Training will print loss every 500 steps and eval results every 5000 steps
# Checkpoints saved every 10k steps to ~/openarm-policies/pick-and-place-v1/

प्रशिक्षण शुरू करें, फिर आउटपुट की निगरानी करें। आपको इसे पूरे समय देखने की ज़रूरत नहीं है - लेकिन यह पुष्टि करने के लिए हर 20-30 मिनट में दोबारा जांचें कि नुकसान कम हो रहा है और रन क्रैश नहीं हुआ है। आपके सोते समय प्रशिक्षण रात भर चल सकता है।

प्रशिक्षण वक्र को समझना

ACT का प्रशिक्षण आउटपुट दो प्रमुख मैट्रिक्स दिखाता है। उन्हें सही ढंग से पढ़ना सीखें - वे आपको बताते हैं कि आपका प्रशिक्षण स्वस्थ है या नहीं और कब रुकना है।

प्रशिक्षण हानि

पहले 20 हजार चरणों में तेजी से घटना चाहिए, फिर धीरे-धीरे कम होना जारी रखें। 0.05 से ऊपर का नुकसान आमतौर पर डेटा गुणवत्ता की समस्याओं को इंगित करता है - अपने डेटासेट की जांच करें। एक हानि जो व्यापक रूप से दोलन करती है, यह दर्शाती है कि आपकी सीखने की दर बहुत अधिक है।

इवल सफलता दर

हर 5k कदम पर दिखाई देता है (एक भौतिक हाथ या सिम की आवश्यकता होती है)। यह वह संख्या है जो वास्तव में मायने रखती है। आप तैनाती से पहले इसे 70% से ऊपर चाहते हैं। यह अक्सर प्रशिक्षण हानि से पीछे रहता है - हानि अच्छी दिख सकती है जबकि सफलता दर में अभी भी सुधार हो रहा है।

कार्रवाई एमएसई

पूर्वानुमानित और जमीनी-सच्चाई कार्यों के बीच माध्य वर्ग त्रुटि। अच्छी तरह से प्रशिक्षित पिक-एंड-प्लेस नीति के लिए इसे 0.01 से नीचे जाना चाहिए। 80 हजार चरणों के बाद उच्च क्रिया एमएसई का मतलब है कि मॉडल कार्य जटिलता से जूझ रहा है या आपका डेटा असंगत है।

केएल डाइवर्जेंस (एसीटी-विशिष्ट)

एसीटी एक केएल वजन के साथ सीवीएई का उपयोग करता है जिसे प्रशिक्षण के दौरान 0 से 10 तक बढ़ाया जाता है। चरण 40k के आसपास इस स्थिरता पर नज़र रखें। यदि यह कभी अभिसरण नहीं करता है, तो मॉडल शैली को एन्कोड करने में विफल हो रहा है - अधिक डेटा जोड़ने का प्रयास करें।

प्रशिक्षण कब बंद करना है

बस 100k कदम तक दौड़ें और रुकें नहीं। यह तय करने के लिए इन संकेतों का उपयोग करें कि आपका चेकपॉइंट तैनाती के लिए कब तैयार है:

लगातार तीन मूल्यांकनों में मूल्यांकन की सफलता दर स्थिर रही है - मॉडल एकत्रित हो गया है। अधिक या भिन्न डेटा के बिना आगे का प्रशिक्षण मदद नहीं करेगा।
इवल सफलता दर 70% से ऊपर है - यह यूनिट 6 परिनियोजन के लिए सीमा है। यदि आप 60k कदम पर 70% तक पहुंच जाते हैं, तो आप जल्दी रुक सकते हैं और उस चेकपॉइंट को तैनात कर सकते हैं।
प्रशिक्षण हानि अभी भी कम हो रही है लेकिन eval स्थिर या घट रहा है - मॉडल ओवरफिटिंग है. अंतिम चेकपॉइंट लें जहां eval अपने चरम पर था। यह सर्वोत्तम जांच चौकी है.
100k कदम के बाद — यदि सफलता दर 40% से कम है, तो इकाई 4 पर वापस जाएँ। इस बिंदु पर प्रशिक्षण समस्या की तुलना में डेटा समस्या अधिक होने की संभावना है।

वैकल्पिक डीप-डाइव्स

अधिनियम से परे - प्रसार नीति और π₀

एक बार जब आपके पास एक कार्यशील ACT नीति हो, तो स्वाभाविक अगला प्रयोग प्रसार नीति है। यह धीमे अनुमान की कीमत पर मल्टी-मोडल कार्यों को बेहतर ढंग से संभालता है (उदाहरण के लिए, हाथ दो कोणों से वस्तु तक पहुंच सकता है)। एसवीआरसी अनुसंधान अनुभाग दोनों को कवर करता है। शोध आलेख ब्राउज़ करें →

इकाई 5 पूर्ण जब...

प्रशिक्षण पूरा हो गया है (या आपने इसे किसी अच्छे चेकपॉइंट पर रोक दिया है)। पिक-एंड-प्लेस कार्य पर आपकी सफलता दर 70% से ऊपर है। आपके पास एक सहेजा हुआ चेकपॉइंट है ~/openarm-policies/pick-and-place-v1/ और आप जानते हैं कि किस चरण संख्या ने आपका सर्वोत्तम परिणाम दिया। आप यूनिट 6 में इस पॉलिसी को वास्तविक बांह पर रखने के लिए तैयार हैं।