יחידה 4: אימון מדיניות — נתיב למידה של LeRobot

בחירות מדיניות

LeRobot שולח שלוש ארכיטקטורות מדיניות מוכנות לייצור. בחר אחד לפני שאתה ריצה אימון - אתה לא יכול להחליף באמצע הריצה.

מומלץ בשביל זה

ACT

אקשן Chunked רובוטריקים. הטוב ביותר עבור מניפולציה מיומנת בזרוע אחת. מתאמן תוך 1-3 שעות ב-GPU. היפרפרמטרים ניתנים לחיזוי. השתמש בזה.

מדיניות פיזור

דיוק שיא גבוה יותר במשימות דיוק אך איטי יותר פי 3-5 לאימון ולהסיק. השתמש בו לאחר שיש לך קו בסיס ACT עובד.

SmolVLA

VLA מותנה בשפה. השתמש כאשר המשימה שלך דורשת הוראות בשפה טבעית או הכללה מרובת משימות. דורש יותר נתונים.

פיקוד הדרכה ACT

לְהַחלִיף $HF_USER/pick-place-v1 עם מזהה ריפו של מערך הנתונים שלך מיחידה 3.

מקור ~/lerobot-env/bin/activate python -m lerobot.scripts.train \ --אקט סוג מדיניות \ --dataset-repo-id $HF_USER/pick-place-v1 \ --output-dir ~/lerobot-policies/pick-place-v1 \ --config-overrides \ training.num_freps=0=5.000s=0=5.000.2 policy.chunk_size=100 \ policy.n_action_steps=100

# Add --device cuda if you have a GPU (strongly recommended)
# Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/
# Start this before sleep — it can run unattended

GPU לעומת זמן אימון מעבד: ב-RTX 3090 (24GB), 50,000 צעדים לוקחים בערך 60-80 דקות. ב-RTX 3080 (10GB), בערך 90-120 דקות. במעבד, צפו ל-8-12 שעות. אפשרויות GPU בענן (Lambda Labs, Vast.ai) פועלות ב-$0.50-1.50 לשעה עבור החומרה הדרושה.

היפרפרמטרים מומלצים עבור בחירה-ומקום עם זרוע אחת

פָּרָמֶטֶר	מוּמלָץ	מַדוּעַ
מספר_צעדים	50000	מספיק ל-50-100 הדגמות של בחירה-ומקום פשוטה. הגדל ל-80k אם רמת ההפסד שלך מתרחשת באיחור.
גודל_אצווה	32	סטנדרטי עבור מערכי נתונים בעלי זרוע אחת. הפחת ל-16 אם נגמר לך זיכרון ה-GPU.
chunk_size	100	ACT מתכננת 100 צעדים קדימה. ב-30 פריימים לשנייה זה בערך 3.3 שניות - אופק תכנון טוב לבחירה ומקום.
n_action_steps	100	חייב להתאים chunk_size. מפחית את תדירות ההסקות ומחליק את הביצוע.
kl_weight	10	ברירת המחדל של LeRobot. אל תשנה אלא אם L_kl נשאר קרוב לאפס לאחר 20 אלף צעדים.
lr	1ה-5	LeRobot ברירת המחדל עבור ACT. הורד ל-5e-6 אם אובדן השחזור מתנודד במקום להתכנס.

קריאת יומני הדרכה

יומני הדרכה מודפסים למסוף ול-TensorBoard. הפעל את TensorBoard במסוף שני:

tensorboard --logdir ~/lerobot-policies/

ואז פתח http://localhost:6006 בדפדפן שלך. צפו בעיקולים האלה:

הפסד/שחזור (L_recon)

אות האימון העיקרי. אמור לרדת מ-~2.5-3.5 מתחת ל-0.1 ב-50,000 צעדים. רמה מעל 0.15 לאחר 40,000 צעדים בדרך כלל אומר שיש יותר מדי שונות של מערך הנתונים שלך - סקור את שיטות ההדגמה הטובות של יחידה 3 ושקול להקליט הדגמות עקביות יותר.

טירה/קל (L_kl)

עולה לאט מקרוב ל-0 ל-5-20. זוהי התנהגות צפויה - ה- CVAE לומד הטמעה בסגנון קומפקטי. אם הוא עולה על 40, ההדגמות שלך מכילות יותר מדי גיוון התנהגותי. אם הוא נשאר ליד 0 לאחר 20 אלף צעדים, ה- CVAE לא לומד; להגדיל את kl_weight ל-20.

רכבת/הפסד (הפסד מוחלט)

L_recon + kl_weight × L_kl. נשלט על ידי L_recon באימון מוקדם. אמור לרדת באופן מונוטוני. הפסד כולל שעולה לאחר ירידה ראשונית מצביע על דעיכת קצב הלמידה אגרסיבית מדי - בדוק את תצורת המתזמן.

ניהול מחסומים

מחסומים חוסכים כל 5,000 צעדים ל ~/lerobot-policies/pick-place-v1/checkpoints/. אל תניח שהמחסום הסופי הוא הטוב ביותר. המדיניות עלולה להתאים יותר מדי בספירת צעדים גבוהה, במיוחד עם מערכי נתונים קטנים.

לאחר האימון, זהה את נקודת המחסום הטובה ביותר שלך: זהו השלב שבו L_reconstruction הגיע למינימום שלו לפני תחילת הרמה. עבור 50 הדגמות, זה מתרחש בדרך כלל בטווח של 35,000-50,000 צעדים. שמור את מספר השלב הזה - אתה תשתמש בו ביחידה 5.

יחידה 4 השלם כאשר...

האימון השלים 50,000 צעדים ונקודות הבידוק נשמרות ~/lerobot-policies/pick-place-v1/checkpoints/. הפסד ה-L_reconstruction הסופי הוא מתחת ל-0.1. זיהית את שלב המחסום הטוב ביותר שלך בהתבסס על עקומות ההפסד. אתה מבין מה L_kl עושה בריצת האימונים שלך. אתה מוכן להעריך את המדיניות ביחידה 5.