מדוע איכות הנתונים חשובה יותר מהכמות
תפיסה שגויה נפוצה בלמידת רובוטים היא שיותר הדגמות מייצרות באופן אוטומטי מדיניות טובה יותר. זה שקרי. רשתות עצביות לומדות לחקות את הֲפָצָה של התנהגות במערך הנתונים שלך. אם ההדגמות שלך אינן עקביות - נתיבים שונים, מהירויות שונות, מיקומי אובייקט שונים - הרשת לומדת ממוצע מטושטש שאינו תואם לאף אסטרטגיה מוצלחת בפועל.
50 הדגמות שבהן הזרוע לוקחת את אותו נתיב נקי, אוחזת באובייקט באותו מיקום וחוזרת לאותה עמדת בית, יפיקו מדיניות שמכלילה יותר מ-500 הדגמות עם שונות גבוהה. מפגש האיסוף הראשון הוא ההזדמנות שלך לבסס את העקביות הזו. קח את הזמן שלך. מחק והקלט מחדש כל הדגמה שהרגישה לא נכונה.
להארקה עמוקה יותר בתכנון צינורות, קרא את ה סקירת צינור איסוף נתונים בספריית הרובוטיקה.
פורמט מערך הנתונים של LeRobot
ההקלטות שלך יישמרו ב פורמט LeRobot - התקן המשמש את ספריית LeRobot של Hugging Face ותואם למאמני ACT ו-Diffusion Policy שבהם תשתמש ביחידה 5.
מה נרשם
עמדות מפרקים (6 DOF + תפסן), מהירויות מפרקים, תנוחת קצה, מסגרות מצלמה (RGB + עומק אופציונלי), חותמות זמן ומטא נתונים של משימות.
מבנה הקובץ
תיקייה אחת לכל פרק. כל פרק מכיל א data.parquet עם מערכי מצב/פעולה וא video/ תיקיית משנה עם זרמי מצלמה.
קצב דגימה
50Hz כברירת מחדל. כל שנייה של הפעלה טלפונית מייצרת 50 שלבי זמן. בחירה-ומקום של 10 שניות מייצרת 500 זוגות (מצב, פעולה).
תְאִימוּת
פורמט LeRobot נטען ישירות לתוך lerobot.common.datasets. זה גם ניתן להמרה ל-RLDS עבור צינורות TF-Agents. עיין במערך נתונים עזר →
סשן ההקלטה שלך
הפעל את תסריט ההקלטה עם שם המשימה וספירת הפרקים היעד. התסריט מטפל בניהול פרקים, מתן שם קבצים וסימון איכות באופן אוטומטי:
הגדר את סביבת העבודה שלך עם אותו אובייקט באותה מיקום התחלה עבור כל פרק. השתמש בסימני קלטת על השולחן כדי לשמור על עקביות במיקום האובייקט. הזרוע שלך צריכה לחזור לאותה תנוחת בית בדיוק לפני תחילת כל פרק - תסריט ההקלטה אוכף זאת עם בדיקת ביות.
טיפ מעשי: כוון לפרקים בין 8-15 שניות כל אחד. קצר מדי (מתחת לגיל 5) ולפוליסה אין זמן לתכנן מסלול חלק. ארוך מדי (מעל גיל 20) וריאציות קטנות מורכבות. עבור בחירה סטנדרטית, 10 שניות לפרק הוא היעד.
רשימת איכות נתונים
לפני שתתקדם ליחידה 5, ודא שמערך הנתונים שלך עובר את כל חמשת הבדיקות הללו. זרוק והקלט מחדש פרקים שנכשלים בכל פריט.
- אין אחיזה כושלת. כל פרק מסתיים כשהאובייקט מוקם בהצלחה במיקום היעד. יש למחוק פרקים שבהם הזרוע פספסה את האחיזה או שמטה את האובייקט - הם מלמדים את המודל להיכשל.
- תנוחת התחלה עקבית. הזרוע מתחילה ממצב הבית בכל פרק. ודא במציג הנתונים שזוויות המפרקים בשלב הזמן 0 נמצאות בטווח של ±2° זו מזו בכל 50 הפרקים.
-
בלי קפיצות פתאומיות או טלטולים. דמיינו 3-5 פרקים אקראיים עם
python -m lerobot.visualize_dataset --dataset ~/openarm-datasets/pick-and-place. רצפי פעולה צריכים להיות עקומות רציפות חלקות, לא קוצים. - מסגרות המצלמה ברורות וממוקדות. בדוק שמצלמת סביבת העבודה שלך אינה סגורה, לא נשבה באור ישיר, ושהאובייקט נראה בבירור לאורך כל פרק. וידאו מטושטש או כהה פוגע בביצועי המדיניות.
-
50 פרקים שלמים נשמרו. לָרוּץ
python -m lerobot.inspect ~/openarm-datasets/pick-and-placeואשר שיש לך בדיוק 50 פרקים ללא קבצים פגומים. התסריט יסמן כל פרק עם פריימים חסרים או רצפי פעולה קטועים.
עיין במערך נתונים של עזר לצורך השוואה
ספריית הנתונים של SVRC מכילה דוגמאות של הקלטות בחירה ומקום שבהן תוכל להשתמש כהפניה איכותית. אם הנתונים שלך נראים שונים באופן משמעותי, בדוק לפני האימון. פתח את ערכות הנתונים של SVRC →
יחידה 4 השלם כאשר...
יש לך 50 פרקים נקיים שנשמרו בפורמט LeRobot ב ~/openarm-datasets/pick-and-place. כל חמשת פריטי רשימת האיכות עוברים. רִיצָה lerobot.inspect מציג 50 פרקים, ללא שגיאות. אתה מוכן למסור את מערך הנתונים הזה לצינור ההדרכה ביחידה 5.