יחידה 6: שפר ושתף — נתיב למידה של LeRobot

גלגל התנופה של הנתונים

הדרך האמינה ביותר לשפר מדיניות למידה של רובוט היא לא לשנות את המודל - היא לשפר את הנתונים. גלגל התנופה הוא לולאת האיטרציה המרכזית עבור כל פרויקט לימוד רובוט רציני:

לְהַעֲרִיך

הפעל 20 ניסויים. מדידת אחוזי הצלחה. סיווג כשלים לפי סוג. עשית את זה ביחידה 5.

זהה את מצב הכשל העיקרי

האם זה איכות נתונים (הדגמות לא עקביות), שינוי הפצה (מיקומים בלתי נראים), או קיבולת מודל (מסלול מספיק מדויק אבל שגוי)? האבחון שלך ביחידה 5 עונה על כך.

איסוף נתונים ממוקדים

הקלט 20–30 הפגנות המכסות במיוחד את משטר הכישלון. אם המדיניות נכשלת באובייקטים בצד שמאל של סביבת העבודה, רשום 20 הדגמות של המיקום הספציפי הזה. אל תרשום יותר ממה שכבר עובד.

התאמנו מחדש והעריכו מחדש

מיזוג את הנתונים החדשים עם מערך הנתונים הקיים שלך, אמנו מחדש והפעל שוב את הערכת 20 הניסויים. צפו לשיפור של 10-20 נקודות אחוז בכל מחזור כאשר האבחנה הייתה נכונה.

ערבוב מערכי נתונים

LeRobot יכול להתאמן על מספר מערכי נתונים בו-זמנית, וזה שימושי לשילוב נתוני האיסוף הממוקדים שלך עם מערכי הנתונים המקוריים שלך - או אפילו עם מערכי נתונים ציבוריים של הקהילה עבור אותה משימה וסוג רובוט.

# Merge two datasets into a new combined dataset
python -m lerobot.scripts.push_dataset_to_hub \ --dataset-dir ~/lerobot-datasets/pick-place-v1 \ --repo-id $HF_USER/pick-place-v2-merged

# OR train directly on multiple repo IDs
python -m lerobot.scripts.train \ --אקט מסוג מדיניות \ --dataset-repo-id "$HF_USER/pick-place-v1,$HF_USER/pick-place-targeted" \ --dataset-repo-id-weights "1.0,2.0" \ --output-dir ~/lerobot-policies/pick-place-v2

# The weights parameter upsamples the targeted data 2x
# relative to the original dataset

ערבוב עם מערכי נתונים ציבוריים: לפני ערבוב במערך נתונים קהילתי, ודא שסוג הרובוט ומרחב הפעולה תואמים לממדים שלך. ערבוב של מערך נתונים של 7-DOF לריצת אימון של 6-DOF יגרום לשגיאת אי-התאמה של צורה שקטה. בדוק תמיד את info.json של כל מערך נתונים שאתה מתכנן לערבב.

שתף את הדגם שלך ב- HuggingFace Hub

שיתוף המודל המיומן שלך הופך אותו לזמין לקהילה ומאפשר לאחרים להשתמש במדיניות שלך כנקודת התחלה. מודלים משותפים בפורמט LeRobot הסטנדרטי יכולים להיטען ישירות על ידי כל מי שיש לו pip install lerobot.

# Push your best checkpoint to HuggingFace Hub
python -m lerobot.scripts.push_policy_to_hub \ --מחסום-נתיב \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --repo-id $HF_USER/act-pick-place-so100

# Add a model card (recommended)
# The push command creates a README.md template — fill it in with:
#   - Robot type and task description
#   - Training dataset repo ID
#   - Evaluation success rate
#   - Video of the policy running on your robot

שתף את מערך הנתונים שלך עם הקהילה

מערך הנתונים שלך (שדחפת ביחידה 3) כבר נמצא ב- HuggingFace Hub. כדי להפוך אותו לגלוי ושימושי יותר עבור אחרים:

הוסף א כרטיס מערך הנתונים ב- HuggingFace - תאר את המשימה, הרובוט, הגדרת ההקלטה ומספר הפרקים. זה הדבר היחיד המשפיע ביותר שאתה יכול לעשות לגילוי מערך הנתונים.
תייגו את זה עם lerobot, סוג הרובוט שלך (למשל, so100), וקטגוריית המשימות שלך (למשל, pick-and-place).
שלח אותו ל- ספריית הנתונים של SVRC לאצירה והכללה באינדקס הקהילה.

תרומה של תצורות חומרה חזרה ל-LeRobot

אם הוספת תצורת חומרה מותאמת אישית עבור רובוט לא נתמך ביחידה 1, שקול לתרום אותו בחזרה למאגר LeRobot. פתח בקשת משיכה אל huggingface/lerobot עם קובץ התצורה שלך lerobot/configs/robot/. המתחזקים בודקים את תרומות החומרה במהירות וזה מועיל ישירות לכל משתמש עתידי בחומרה זו.

מה הלאה: מדיניות מוכשרת יותר

כעת יש לך את זרימת העבודה המלאה של LeRobot. הנה לאן להמשיך מכאן:

שָׂפָה

SmolVLA - מדיניות מותנית בשפה

עבור מ-ACT ל-SmolVLA כאשר אתה רוצה שהמדיניות תגיב להוראות שפה טבעית ("תרים את הבלוק הכחול") או תכליל בין משימות. דורש ~200+ הדגמות ופורמט הנחיות מובנה יותר. עיין בדוגמאות של נייר SmolVLA ו-LeRobot.

סוּלָם

Pi0Fast - מסקנות VLA במהירות גבוהה

Pi0Fast פועל בהסקת 100Hz (לעומת 30Hz של ACT), מה שמאפשר משימות מניפולציה מהירות יותר ולולאות בקרה הדוקות יותר. זה דורש GPU בזמן הסקת מסקנות אבל מייצר התנהגות מיומנת יותר בקנה מידה.

הַכלָלָה

מדיניות ריבוי משימות

אימון מדיניות יחידה על משימות מרובות באמצעות מערך נתונים מעורב עם ערכי task_index שונים לכל פרק. SmolVLA ו-Pi0Fast תומכים שניהם באימון ריבוי משימות באופן מקורי. ראה את המתכון לריבוי משימות של LeRobot בדוגמאות של GitHub.

השלמת את נתיב LeRobot.

התקנת את LeRobot, הבנת את פורמט מערך הנתונים, הקלטת הדגמות משלך, אימנת מדיניות ACT, הערכת אותה באופן שיטתי והפעלת את גלגל התנופה של הנתונים. זהו זרימת העבודה המלאה של למידה רובוטית בקוד פתוח - אותה עבודה המשמשת מעבדות מחקר וסטארט-אפים רובוטיים ברחבי העולם.

שאל שאלות בפורום שתף את התוצאה שלך בתצוגה

שאלות? הצטרף ל HuggingFace Discord #lerobot - המתחזקים והקהילה פעילים ומסבירי פנים.