יחידה 5: הערכת המדיניות שלך - נתיב למידה של LeRobot

הערכת סימולציה

הערך תחילה בסימולציה, גם אם יש לך רובוט אמיתי. הערכת ה-Sim היא מהירה, בטוחה ונותנת לך מספר בסיס שניתן לשחזר אליו תוכל להשוות לאחר אימון מחדש.

מקור ~/lerobot-env/bin/activate

# Evaluate your best checkpoint (replace step_050000 with your checkpoint step)
python -m lerobot.scripts.eval \ --pretrained-policy-name-or-path \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --env.name gym_pusht/PushT-v0 \ --eval.n-פרקים 20 \ --eval.use-ac false

# Outputs: success_rate, mean_reward, episode_videos/

למה לצפות: מדיניות מיומנת היטב על 50 הדגמות סים אמורה להשיג שיעור הצלחה של 60-85% ב-MuJoCo. מתחת ל-40% מצביע על בעיה באיכות מערך הנתונים. מעל 85% אומר שהמשימה קלה מדי או שסביבת ה-Sim סלחנית מדי - נסה גרסה קשה יותר.

רשימת בטיחות רובוט אמיתי

אם אתה מבצע הערכה על רובוט אמיתי, עיין ברשימת הבדיקה הזו לפני ההשקה הראשונה שלך. מדיניות שלא נבדקה יכולה לנוע בדרכים בלתי צפויות.

נקה את סביבת העבודה מכל אובייקט שאינו חלק מהמשימה. המדיניות למדה לפעול בהקשר חזותי ספציפי - אובייקטים בלתי צפויים יכולים לגרום להתנהגות לא סדירה.
הישאר בתחנת החירום (E-stop) או היה מוכן ללחוץ על Ctrl+C למשך כל הפעלת ההערכה. אל תתרחק ממדיניות ריצה.
התחל עם מהירות מוגבלת ל-50% מקסימום. הפחת ל-30% אם הניסיון הראשון נראה קופצני או לא מדויק.
מקם אובייקטים כך שיתאימו בדיוק להגדרת סביבת העבודה שלך באימון. השתמש באותה זווית מצלמה, אותה תאורה, אותם צבעי אובייקט. שינוי התפוצה הוא הגורם השכיח ביותר לאפס אחוזי הצלחה בעולם האמיתי.
לעולם אל תעריך מעל גבולות העצירה הפיזיים של מפרקי הרובוט שלך. בדוק את אלה בתצורת הרובוט שלך לפני הריצה הראשונה.

פרוטוקול הערכת רובוט אמיתי

הפעל בדיוק 20 ניסויים. זה נותן לך מספיק דוגמאות להערכת אחוזי הצלחה אמינה (±10% ברמת ביטחון של 95%). הקלט כל ניסיון בוידאו - תצטרך את הצילומים כדי לאבחן מצבי כשל.

# Run the policy on your real robot
python -m lerobot.scripts.control_robot \ --רובוט-נתיב lerobot/configs/robot/so100.yaml \ --- control-mode eval \ --pretrained-policy-name-or-path \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --eval.n-פרקים 20 \ --הקלט-וידאו 1

לאחר כל ניסיון, ציינו אותו באופן ידני: 1 עבור הצלחה מלאה במשימה, 0 עבור כל כישלון (תפיסות חלקיות, נפילות, החמצות). שיעור ההצלחה שלך הוא הסכום חלקי 20.

אבחון מצבי כשל

צפה בהקלטות הווידאו שלך וסווג כשלים. רוב הכישלונות מתחלקים לאחת משלוש קטגוריות:

איכות נתונים

מסלול גישה לא עקבי - הזרוע אף פעם לא מתחייבת לחלוטין לאחיזה

המדיניות מבצעת ממוצע על פני אסטרטגיות אחיזה מרובות בנתוני ההדרכה שלך. זה קורה כאשר הפגנות מסוימות מתקרבות משמאל ואחרות מימין, או כאשר תזמון סגירת האוחז אינו עקבי. תיקון: הקלט מחדש באסטרטגיה אחת ומכוונת לאורך כל ההדגמות.

קיבולת דגם

המסלול נראה סביר אבל הדיוק מופחת ב-1-2 ס"מ בעקביות

המודל לומד את ההתנהגות הנכונה אך חסר את היכולת לדייק. זה קורה כאשר chunk_size קצר מדי (לא מספיק אופק תכנון) או כאשר dim_feedforward קטן מדי. תיקון: הגדל את chunk_size ל-150, אימון מחדש. או הוסף הדגמות מגוונות יותר כדי להסדיר את הרשת.

משמרת הפצה

עובד בצורה מושלמת בתפקידים מסוימים, נכשל לחלוטין באחרים

מיקומי האובייקט במהלך ההערכה נמצאים מחוץ להפצה של נתוני האימון שלך. המדיניות לא ראתה עמדות אלה בעבר. תיקון: אסוף הדגמות נוספות עם מיקומי אובייקט מגוונים יותר, או הגבל את ההערכה שלך לעמדות שמיוצגות היטב בנתוני האימון שלך.

יחידה 5 השלם כאשר...

הרצתם 20 ניסויי הערכה (בסים או על הרובוט האמיתי שלכם) ומדדתם אחוזי הצלחה. צפית בכל הסרטונים במצב כשל וזיהית אם הכשל העיקרי הוא איכות הנתונים, קיבולת הדגם או שינוי הפצה. יש לך את האבחנה הזו רשומה - אתה תשתמש בה כדי להנחות את איסוף הנתונים שלך ביחידה 6.

הערך את המדיניות שלך