यूनिट 6: सुधार करें और साझा करें - लेरोबोट लर्निंग पाथ

डेटा फ्लाईव्हील

रोबोट सीखने की नीति में सुधार करने का सबसे विश्वसनीय तरीका मॉडल को बदलना नहीं है - बल्कि डेटा में सुधार करना है। डेटा फ्लाईव्हील किसी भी गंभीर रोबोट सीखने की परियोजना के लिए मुख्य पुनरावृत्ति लूप है:

मूल्यांकन करना

20 परीक्षण चलाएँ. सफलता दर मापें. विफलताओं को प्रकार के आधार पर वर्गीकृत करें। आपने यह इकाई 5 में किया था।

प्राथमिक विफलता मोड को पहचानें

क्या यह डेटा गुणवत्ता (असंगत डेमो), वितरण बदलाव (अनदेखी स्थिति), या मॉडल क्षमता (सटीक पर्याप्त प्रक्षेपवक्र लेकिन गलत) है? आपका यूनिट 5 निदान इसका उत्तर देता है।

लक्षित डेटा एकत्र करें

विशेष रूप से विफलता व्यवस्था को कवर करने वाले 20-30 प्रदर्शन रिकॉर्ड करें। यदि नीति कार्यक्षेत्र के बाईं ओर की वस्तुओं पर विफल हो जाती है, तो उस विशिष्ट स्थिति के 20 डेमो रिकॉर्ड करें। जो पहले से ही काम कर रहा है उसे और अधिक रिकॉर्ड न करें।

पुनः प्रशिक्षित करें और पुनर्मूल्यांकन करें

नए डेटा को अपने मौजूदा डेटासेट के साथ मर्ज करें, पुनः प्रशिक्षित करें और 20-परीक्षण मूल्यांकन फिर से चलाएँ। निदान सही होने पर प्रति चक्र 10-20 प्रतिशत अंक सुधार की अपेक्षा करें।

डेटासेट का मिश्रण

लेरोबोट एक साथ कई डेटासेट पर प्रशिक्षण ले सकता है, जो आपके लक्षित संग्रह डेटा को आपके मूल डेटासेट के साथ - या यहां तक कि एक ही कार्य और रोबोट प्रकार के लिए सार्वजनिक समुदाय डेटासेट के साथ संयोजित करने के लिए उपयोगी है।

# Merge two datasets into a new combined dataset
पायथन -एम लेरोबोट.स्क्रिप्ट्स.पुश_डेटासेट_टू_हब \ --डेटासेट-डीआईआर ~/लेरोबोट-डेटासेट/पिक-प्लेस-v1 \ --रेपो-आईडी $HF_USER/पिक-प्लेस-v2-मर्ज्ड

# OR train directly on multiple repo IDs
पायथन -एम लेरोबोट.स्क्रिप्ट्स.ट्रेन \ --नीति-प्रकार अधिनियम \ --डेटासेट-रेपो-आईडी "$HF_USER/पिक-प्लेस-v1,$HF_USER/पिक-प्लेस-लक्षित" \ --डेटासेट-रेपो-आईडी-वजन "1.0,2.0" \ --आउटपुट-डीआईआर ~/लेरोबोट-नीतियां/पिक-प्लेस-वी2

# The weights parameter upsamples the targeted data 2x
# relative to the original dataset

सार्वजनिक डेटासेट के साथ मिश्रण: सामुदायिक डेटासेट में मिश्रण करने से पहले, सत्यापित करें कि रोबोट प्रकार और एक्शन स्पेस आयाम आपके से मेल खाते हैं। 7-डीओएफ डेटासेट को 6-डीओएफ प्रशिक्षण रन में मिलाने से साइलेंट आकार बेमेल त्रुटि हो जाएगी। हमेशा निरीक्षण करें info.json आप जिस भी डेटासेट को मिश्रित करने की योजना बना रहे हैं।

हगिंगफेस हब पर अपना मॉडल साझा करें

अपने प्रशिक्षित मॉडल को साझा करने से यह समुदाय के लिए उपलब्ध हो जाता है और अन्य लोग आपकी नीति को शुरुआती बिंदु के रूप में उपयोग कर सकते हैं। मानक LeRobot प्रारूप में साझा किए गए मॉडल को कोई भी सीधे लोड कर सकता है pip install lerobot.

# Push your best checkpoint to HuggingFace Hub
पायथन -एम लेरोबोट.स्क्रिप्ट्स.पुश_पॉलिसी_टू_हब \ --चेकपॉइंट-पथ \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --रेपो-आईडी $HF_USER/act-pick-place-so100

# Add a model card (recommended)
# The push command creates a README.md template — fill it in with:
#   - Robot type and task description
#   - Training dataset repo ID
#   - Evaluation success rate
#   - Video of the policy running on your robot

समुदाय के साथ अपना डेटासेट साझा करें

आपका डेटासेट (जिसे आपने यूनिट 3 में डाला था) पहले से ही हगिंगफेस हब पर है। इसे दूसरों के लिए अधिक खोजने योग्य और उपयोगी बनाने के लिए:

एक जोड़ना डेटासेट कार्ड हगिंगफेस पर - कार्य, रोबोट, रिकॉर्डिंग सेटअप और एपिसोड की संख्या का वर्णन करें। डेटासेट खोज योग्यता के लिए यह सबसे प्रभावशाली चीज़ है जो आप कर सकते हैं।
इसे टैग करें lerobot, आपका रोबोट प्रकार (जैसे, so100), और आपकी कार्य श्रेणी (जैसे, pick-and-place).
इसे सबमिट करें एसवीआरसी डेटासेट लाइब्रेरी सामुदायिक सूचकांक में क्यूरेशन और समावेशन के लिए।

लेरोबोट में वापस हार्डवेयर कॉन्फ़िगरेशन का योगदान

यदि आपने यूनिट 1 में एक असमर्थित रोबोट के लिए एक कस्टम हार्डवेयर कॉन्फ़िगरेशन जोड़ा है, तो इसे LeRobot रिपॉजिटरी में वापस योगदान करने पर विचार करें। के लिए एक पुल अनुरोध खोलें huggingface/lerobot आपकी कॉन्फ़िग फ़ाइल के साथ lerobot/configs/robot/. अनुरक्षक हार्डवेयर योगदान की शीघ्रता से समीक्षा करते हैं और इससे उस हार्डवेयर के प्रत्येक भावी उपयोगकर्ता को सीधे लाभ होता है।

आगे क्या है: अधिक सक्षम नीतियां

अब आपके पास संपूर्ण LeRobot वर्कफ़्लो है। यहां बताया गया है कि यहां से कहां जाना है:

भाषा

SmolVLA - भाषा-वातानुकूलित नीतियां

जब आप चाहते हैं कि नीति प्राकृतिक भाषा निर्देशों ("नीला ब्लॉक उठाएँ") का जवाब दे या सभी कार्यों को सामान्यीकृत करे, तो ACT से SmolVLA पर स्विच करें। ~200+ प्रदर्शन और अधिक संरचित शीघ्र प्रारूप की आवश्यकता है। SmolVLA पेपर और LeRobot उदाहरण देखें।

पैमाना

Pi0Fast - हाई-स्पीड वीएलए अनुमान

Pi0Fast 100Hz अनुमान (बनाम ACT के 30Hz) पर चलता है, जिससे तेज़ हेरफेर कार्य और सख्त नियंत्रण लूप सक्षम होते हैं। अनुमान के समय इसके लिए GPU की आवश्यकता होती है, लेकिन यह बड़े पैमाने पर काफी अधिक कुशल व्यवहार उत्पन्न करता है।

सामान्यकरण

बहु-कार्य नीतियां

प्रति एपिसोड विभिन्न कार्य_सूचकांक मानों के साथ मिश्रित डेटासेट का उपयोग करके एकाधिक कार्यों पर एक ही नीति को प्रशिक्षित करें। SmolVLA और Pi0Fast दोनों मूल रूप से बहु-कार्य प्रशिक्षण का समर्थन करते हैं। GitHub उदाहरणों में LeRobot मल्टी-टास्क रेसिपी देखें।

आपने लेरोबोट पथ पूरा कर लिया।

आपने लेरोबोट स्थापित किया, डेटासेट प्रारूप को समझा, अपने स्वयं के प्रदर्शनों को रिकॉर्ड किया, एक एसीटी नीति को प्रशिक्षित किया, इसका व्यवस्थित रूप से मूल्यांकन किया, और डेटा फ्लाईव्हील चलाया। यह संपूर्ण ओपन-सोर्स रोबोट लर्निंग वर्कफ़्लो है - वही जो दुनिया भर में अनुसंधान प्रयोगशालाओं और रोबोटिक्स स्टार्टअप द्वारा उपयोग किया जाता है।

फ़ोरम में प्रश्न पूछें शोकेस में अपना परिणाम साझा करें

प्रश्न? शामिल होना हगिंगफेस डिसॉर्डर #लेरोबोट - अनुरक्षक और समुदाय सक्रिय और स्वागत करने वाले हैं।

सुधारें और साझा करें