בחירות מדיניות
LeRobot שולח שלוש ארכיטקטורות מדיניות מוכנות לייצור. בחר אחד לפני שאתה ריצה אימון - אתה לא יכול להחליף באמצע הריצה.
ACT
אקשן Chunked רובוטריקים. הטוב ביותר עבור מניפולציה מיומנת בזרוע אחת. מתאמן תוך 1-3 שעות ב-GPU. היפרפרמטרים ניתנים לחיזוי. השתמש בזה.
מדיניות פיזור
דיוק שיא גבוה יותר במשימות דיוק אך איטי יותר פי 3-5 לאימון ולהסיק. השתמש בו לאחר שיש לך קו בסיס ACT עובד.
SmolVLA
VLA מותנה בשפה. השתמש כאשר המשימה שלך דורשת הוראות בשפה טבעית או הכללה מרובת משימות. דורש יותר נתונים.
פיקוד הדרכה ACT
לְהַחלִיף $HF_USER/pick-place-v1 עם מזהה ריפו של מערך הנתונים שלך מיחידה 3.
היפרפרמטרים מומלצים עבור בחירה-ומקום עם זרוע אחת
| פָּרָמֶטֶר | מוּמלָץ | מַדוּעַ |
|---|---|---|
| מספר_צעדים | 50000 | מספיק ל-50-100 הדגמות של בחירה-ומקום פשוטה. הגדל ל-80k אם רמת ההפסד שלך מתרחשת באיחור. |
| גודל_אצווה | 32 | סטנדרטי עבור מערכי נתונים בעלי זרוע אחת. הפחת ל-16 אם נגמר לך זיכרון ה-GPU. |
| chunk_size | 100 | ACT מתכננת 100 צעדים קדימה. ב-30 פריימים לשנייה זה בערך 3.3 שניות - אופק תכנון טוב לבחירה ומקום. |
| n_action_steps | 100 | חייב להתאים chunk_size. מפחית את תדירות ההסקות ומחליק את הביצוע. |
| kl_weight | 10 | ברירת המחדל של LeRobot. אל תשנה אלא אם L_kl נשאר קרוב לאפס לאחר 20 אלף צעדים. |
| lr | 1ה-5 | LeRobot ברירת המחדל עבור ACT. הורד ל-5e-6 אם אובדן השחזור מתנודד במקום להתכנס. |
קריאת יומני הדרכה
יומני הדרכה מודפסים למסוף ול-TensorBoard. הפעל את TensorBoard במסוף שני:
ואז פתח http://localhost:6006 בדפדפן שלך. צפו בעיקולים האלה:
הפסד/שחזור (L_recon)
אות האימון העיקרי. אמור לרדת מ-~2.5-3.5 מתחת ל-0.1 ב-50,000 צעדים. רמה מעל 0.15 לאחר 40,000 צעדים בדרך כלל אומר שיש יותר מדי שונות של מערך הנתונים שלך - סקור את שיטות ההדגמה הטובות של יחידה 3 ושקול להקליט הדגמות עקביות יותר.
טירה/קל (L_kl)
עולה לאט מקרוב ל-0 ל-5-20. זוהי התנהגות צפויה - ה- CVAE לומד הטמעה בסגנון קומפקטי. אם הוא עולה על 40, ההדגמות שלך מכילות יותר מדי גיוון התנהגותי. אם הוא נשאר ליד 0 לאחר 20 אלף צעדים, ה- CVAE לא לומד; להגדיל את kl_weight ל-20.
רכבת/הפסד (הפסד מוחלט)
L_recon + kl_weight × L_kl. נשלט על ידי L_recon באימון מוקדם. אמור לרדת באופן מונוטוני. הפסד כולל שעולה לאחר ירידה ראשונית מצביע על דעיכת קצב הלמידה אגרסיבית מדי - בדוק את תצורת המתזמן.
ניהול מחסומים
מחסומים חוסכים כל 5,000 צעדים ל ~/lerobot-policies/pick-place-v1/checkpoints/. אל תניח שהמחסום הסופי הוא הטוב ביותר. המדיניות עלולה להתאים יותר מדי בספירת צעדים גבוהה, במיוחד עם מערכי נתונים קטנים.
לאחר האימון, זהה את נקודת המחסום הטובה ביותר שלך: זהו השלב שבו L_reconstruction הגיע למינימום שלו לפני תחילת הרמה. עבור 50 הדגמות, זה מתרחש בדרך כלל בטווח של 35,000-50,000 צעדים. שמור את מספר השלב הזה - אתה תשתמש בו ביחידה 5.
יחידה 4 השלם כאשר...
האימון השלים 50,000 צעדים ונקודות הבידוק נשמרות ~/lerobot-policies/pick-place-v1/checkpoints/. הפסד ה-L_reconstruction הסופי הוא מתחת ל-0.1. זיהית את שלב המחסום הטוב ביותר שלך בהתבסס על עקומות ההפסד. אתה מבין מה L_kl עושה בריצת האימונים שלך. אתה מוכן להעריך את המדיניות ביחידה 5.