הגדרת מסקנות עבור שתי זרועות

היסק דו-מאני מפעיל רשת מדיניות אחת המפיקה פעולות עבור שתי הזרועות בו זמנית. לולאת הפעולה של התצפית פועלת ב-50Hz - אותה תדירות כמו נתוני האימון שלך - כששתי זרועות העוקבים מבצעות את נתחי הפעולה שלהן מסונכרנים.

מקור ~/dk1-env/bin/activate # Keep your hand near the E-stop for the first 3 evaluation episodes python -m lerobot.scripts.eval \ --policy-checkpoint ~/dk1-policies/cube-handoff-v1/checkpoint_XXXXX \ --רובוט-נתיב ~/dk1-config.yaml \ --רובוט-סוג dk1_bimanual \ --מכשיר קודה \ --num-eval-פרקים 10 \ --הקלט-וידאו \ --output-dir ~/dk1-evals/v1 # Replace XXXXX with your best checkpoint step (from Unit 5 loss curve analysis) # --record-video saves both arm views as separate mp4 files for failure analysis

עבור הפעלת ההערכה הראשונה, אפשר למדיניות לפעול ללא הפרעה אלא אם כן מתקרבת התנגשות פיזית. מדיניות דו-ידנית מייצרת לעתים קרובות תנועות בלתי צפויות ב-1-2 הפרקים הראשונים כשהן מסתגלות לסביבה האמיתית. פרקים 3-10 הם נתוני ההערכה המשמעותיים. שימו לב אם המדיניות מגיעה באופן עקבי לאותם שלבים של המשימה (גישה, אחיזה, העברה, מקום, בית) גם כשהיא נכשלת בסופו של דבר - הצלחה חלקית היא מידע אבחוני.

פרוטוקול הערכה דו-ידנית

השתמש בפרוטוקול מובנה. הערכה לא רשמית - "נראה שזה עובד" - אינה אמינה עבור מדיניות דו-ידנית מכיוון שהצלחות חלקיות נפוצות הרבה יותר ויכולות להסוות העברת מידע שבור מיסודו.

פריט פרוטוקול מפרט דו-ידני
מספר פרקים10 מינימום; 20 לתוצאות בעלות ביטחון גבוה לפני הוספת נתונים נוספים
עמדת התחלה של קובייהמיקום קבוע, מסומן בקלטת - זהה למערך האימון שלך ביחידה 4
תְאוּרָהחייב להתאים לתנאי האימון. אפילו פתיחת חלון יכולה לשנות את התאורה מספיק כדי להשפיע על מצלמת סביבת העבודה
מה שנחשב כהצלחה מלאההקובייה מתחילה בצד ימין, מסתיימת בצד שמאל, שתי הזרועות חוזרות לתנוחה הביתית, ללא מגע אנושי במהלך הפרק
מה שנחשב כהצלחה חלקיתהושגה תפיסה נכונה אך ההעברה נכשלת, או שההעברה מצליחה אך המיקום אינו היעד. רשום את אלה בנפרד.
סיווג כשליומן: (א) כישלון אחיזה, (ב) כישלון מסירה - נפילות העברה מזרוע לזרוע, (ג) כישלון מיקום, (ד) פסק זמן. קטגוריית כישלון המסירה (B) היא ייחודית לדו-ידנית והאינפורמטיבית ביותר לשיפור.
מדד דוחאחוז הצלחה מלא (פרקים עם כל 4 השלבים נכונים). דווח גם על שיעור הצלחה חלקי. דוגמה: "4/10 מלא, 7/10 הגיע לשלב המסירה".

מצבי כשל דו-ידניים נפוצים

מצבי כשל אלו נבדלים מתקלות בזרוע אחת ודורשים תיקונים ספציפיים דו-ידניים:

  • הזרועות מגיעות לנקודת המסירה באופן אסינכרוני: זרוע אחת מגיעה לעמדת המסירה ומחכה; השני מגיע באיחור. המדיניות לא למדה את העיתוי היחסי בין הזרועות. תיקון: הוסף 20 הדגמות שבהן שתי הזרועות עוצרות במפורש בנקודת המסירה למשך 1-2 שניות לפני השלמת ההעברה. זה הופך את דרישת הסנכרון למפורשת בנתונים.
  • נפילת מסירה - קובייה נופלת בין שתי הזרועות: הכשל הספציפי הדו-ידני הנפוץ ביותר. הזרוע המקבלת סוגרת את האוחז שלה מוקדם מדי או מאוחר מדי ביחס לשחרור הזרוע הנותנת. תיקון: אסוף 15 הדגמות מסירה בהילוך איטי במיוחד במהירות של 25%. התזמון המוגזם נותן למדיניות איתות ברור יותר לגבי רצף המעבר של מצב האוחז.
  • המדיניות מתכנסת לאסטרטגיה חד-זרועית: הפוליסה לומדת להשלים את המשימה עם זרוע אחת בלבד, תוך התעלמות מהיכולות של הזרוע השנייה. זה קורה כאשר הפגנות של זרוע אחת עקביות יותר משל השנייה. תיקון: סקור את שגיאת הפעולה של כל זרוע מעקומות האימון (יחידה 5) ואסוף הדגמות נוספות המכוונות ספציפית לשלבים של הזרוע החלשה.
  • התנגשות בין זרועות: שתי הזרועות מנסות לתפוס את אותו מיקום סביבת עבודה. זהו אירוע בטיחותי - אפשר הימנעות מהתנגשות בשרת החומרה DK1 (collision_avoidance: true ב-dk1-config.yaml) במהלך הערכה. הדרכה על הפגנות המכבדות באופן עקבי הפרדת זרועות בטוחה תמנע את רוב ההתנגשויות; המגן ברמת החומרה מטפל בתיקי קצה.
  • שלב ביטול סנכרון בזמן הפריסה: המדיניות מבצעת את הפעולות הנכונות אך לא בסדר הזמני הנכון - למשל, זרוע ימין ממקמת לפני העברת זרוע שמאל. זהו חפץ של נתחי פעולה שבו גבולות הנתחים אינם מתיישבים עם מעברי שלב המשימה. תיקון: להפחית chunk_size מ-100 ל-50 ולהתאמן מחדש.

גלגל התנופה של הנתונים לשיפור דו-מאני

אותה לולאת שיפור שעובדת עבור מדיניות חד-ידנית עובדת עבור דו-ידנית - עם תוספת אחת ספציפית דו-ידנית: מקד תמיד את רֵאשִׁית מצב כשל ברצף המשימות. לא ניתן לשפר את המסירה (שלב ב') אם האחיזה (שלב א') עדיין לא עקבית. תקן כשלים בסדר רצף המשימות.

1

לְהַעֲרִיך

להריץ 10 פרקים. סיווג כל כשל לפי שלב (A/B/C/D)

2

יַעַד

זהה את שלב הכישלון הראשון. אסוף 20-30 הדגמות המכסות ספציפית את השלב הזה

3

התאמנו מחדש

הוסף הדגמות ממוקדות למערך הנתונים. אמן מחדש מאפס או כוונן את המחסום הטוב ביותר

4

לְהַעֲרִיך

הרץ שוב 10 פרקים. האם שיעור ההצלחה המלא השתפר? עבור לשלב הכישלון הבא.

מה הלאה

כעת יש לך צינור למידה דו-ידני עובד. העברת הקוביה היא הבסיס - אותה ארכיטקטורה מתקדמת למשימות מורכבות משמעותית:

יחידה 6 השלם כאשר...

ה-DK1 שלך משלים את משימת מסירת הקובייה באופן אוטונומי עם שיעור הצלחה מלא של לפחות 6/10 בריצת הערכה מובנית. סיווגת את כל פרקי הכישלון לפי שלב (A/B/C/D) וזיהית איזה שלב אחראי לרוב הכישלונות. צפית בסרטוני הכישלון ויכולת לבטא במפורש מה השתבש. אתה מבין את גלגל התנופה הדו-ידני מספיק טוב כדי לתכנן את איטרציית השיפור הבאה שלך.

בנית מערכת לימוד רובוט דו-ידנית עובדת.

הגדרת ארכיטקטורת מנהיג/עוקב, אספת הדגמות מסונכרנות בשתי זרועות, אימנת מדיניות מתואמת מאפס ופרסת אותה על חומרה אמיתית. מניפולציה דו-ידנית ברמה זו היא המקום שבו פועלות מעבדות המחקר. הבסיס שבנית כאן מתאים למשימות הרכבה, בישול ומשימות עשירות במגע שלא היו בהישג יד לפני שהתחלת בדרך זו.