יחידה 6: הפעל ושפר את המדיניות הדו-ידנית שלך - נתיב למידה של DK1

הגדרת מסקנות עבור שתי זרועות

היסק דו-מאני מפעיל רשת מדיניות אחת המפיקה פעולות עבור שתי הזרועות בו זמנית. לולאת הפעולה של התצפית פועלת ב-50Hz - אותה תדירות כמו נתוני האימון שלך - כששתי זרועות העוקבים מבצעות את נתחי הפעולה שלהן מסונכרנים.

מקור ~/dk1-env/bin/activate

# Keep your hand near the E-stop for the first 3 evaluation episodes

python -m lerobot.scripts.eval \ --policy-checkpoint ~/dk1-policies/cube-handoff-v1/checkpoint_XXXXX \ --רובוט-נתיב ~/dk1-config.yaml \ --רובוט-סוג dk1_bimanual \ --מכשיר קודה \ --num-eval-פרקים 10 \ --הקלט-וידאו \ --output-dir ~/dk1-evals/v1

# Replace XXXXX with your best checkpoint step (from Unit 5 loss curve analysis)
# --record-video saves both arm views as separate mp4 files for failure analysis

עבור הפעלת ההערכה הראשונה, אפשר למדיניות לפעול ללא הפרעה אלא אם כן מתקרבת התנגשות פיזית. מדיניות דו-ידנית מייצרת לעתים קרובות תנועות בלתי צפויות ב-1-2 הפרקים הראשונים כשהן מסתגלות לסביבה האמיתית. פרקים 3-10 הם נתוני ההערכה המשמעותיים. שימו לב אם המדיניות מגיעה באופן עקבי לאותם שלבים של המשימה (גישה, אחיזה, העברה, מקום, בית) גם כשהיא נכשלת בסופו של דבר - הצלחה חלקית היא מידע אבחוני.

פרוטוקול הערכה דו-ידנית

השתמש בפרוטוקול מובנה. הערכה לא רשמית - "נראה שזה עובד" - אינה אמינה עבור מדיניות דו-ידנית מכיוון שהצלחות חלקיות נפוצות הרבה יותר ויכולות להסוות העברת מידע שבור מיסודו.

פריט פרוטוקול	מפרט דו-ידני
מספר פרקים	10 מינימום; 20 לתוצאות בעלות ביטחון גבוה לפני הוספת נתונים נוספים
עמדת התחלה של קובייה	מיקום קבוע, מסומן בקלטת - זהה למערך האימון שלך ביחידה 4
תְאוּרָה	חייב להתאים לתנאי האימון. אפילו פתיחת חלון יכולה לשנות את התאורה מספיק כדי להשפיע על מצלמת סביבת העבודה
מה שנחשב כהצלחה מלאה	הקובייה מתחילה בצד ימין, מסתיימת בצד שמאל, שתי הזרועות חוזרות לתנוחה הביתית, ללא מגע אנושי במהלך הפרק
מה שנחשב כהצלחה חלקית	הושגה תפיסה נכונה אך ההעברה נכשלת, או שההעברה מצליחה אך המיקום אינו היעד. רשום את אלה בנפרד.
סיווג כשל	יומן: (א) כישלון אחיזה, (ב) כישלון מסירה - נפילות העברה מזרוע לזרוע, (ג) כישלון מיקום, (ד) פסק זמן. קטגוריית כישלון המסירה (B) היא ייחודית לדו-ידנית והאינפורמטיבית ביותר לשיפור.
מדד דוח	אחוז הצלחה מלא (פרקים עם כל 4 השלבים נכונים). דווח גם על שיעור הצלחה חלקי. דוגמה: "4/10 מלא, 7/10 הגיע לשלב המסירה".

מצבי כשל דו-ידניים נפוצים

מצבי כשל אלו נבדלים מתקלות בזרוע אחת ודורשים תיקונים ספציפיים דו-ידניים:

הזרועות מגיעות לנקודת המסירה באופן אסינכרוני: זרוע אחת מגיעה לעמדת המסירה ומחכה; השני מגיע באיחור. המדיניות לא למדה את העיתוי היחסי בין הזרועות. תיקון: הוסף 20 הדגמות שבהן שתי הזרועות עוצרות במפורש בנקודת המסירה למשך 1-2 שניות לפני השלמת ההעברה. זה הופך את דרישת הסנכרון למפורשת בנתונים.
נפילת מסירה - קובייה נופלת בין שתי הזרועות: הכשל הספציפי הדו-ידני הנפוץ ביותר. הזרוע המקבלת סוגרת את האוחז שלה מוקדם מדי או מאוחר מדי ביחס לשחרור הזרוע הנותנת. תיקון: אסוף 15 הדגמות מסירה בהילוך איטי במיוחד במהירות של 25%. התזמון המוגזם נותן למדיניות איתות ברור יותר לגבי רצף המעבר של מצב האוחז.
המדיניות מתכנסת לאסטרטגיה חד-זרועית: הפוליסה לומדת להשלים את המשימה עם זרוע אחת בלבד, תוך התעלמות מהיכולות של הזרוע השנייה. זה קורה כאשר הפגנות של זרוע אחת עקביות יותר משל השנייה. תיקון: סקור את שגיאת הפעולה של כל זרוע מעקומות האימון (יחידה 5) ואסוף הדגמות נוספות המכוונות ספציפית לשלבים של הזרוע החלשה.
התנגשות בין זרועות: שתי הזרועות מנסות לתפוס את אותו מיקום סביבת עבודה. זהו אירוע בטיחותי - אפשר הימנעות מהתנגשות בשרת החומרה DK1 (collision_avoidance: true ב-dk1-config.yaml) במהלך הערכה. הדרכה על הפגנות המכבדות באופן עקבי הפרדת זרועות בטוחה תמנע את רוב ההתנגשויות; המגן ברמת החומרה מטפל בתיקי קצה.
שלב ביטול סנכרון בזמן הפריסה: המדיניות מבצעת את הפעולות הנכונות אך לא בסדר הזמני הנכון - למשל, זרוע ימין ממקמת לפני העברת זרוע שמאל. זהו חפץ של נתחי פעולה שבו גבולות הנתחים אינם מתיישבים עם מעברי שלב המשימה. תיקון: להפחית chunk_size מ-100 ל-50 ולהתאמן מחדש.

גלגל התנופה של הנתונים לשיפור דו-מאני

אותה לולאת שיפור שעובדת עבור מדיניות חד-ידנית עובדת עבור דו-ידנית - עם תוספת אחת ספציפית דו-ידנית: מקד תמיד את רֵאשִׁית מצב כשל ברצף המשימות. לא ניתן לשפר את המסירה (שלב ב') אם האחיזה (שלב א') עדיין לא עקבית. תקן כשלים בסדר רצף המשימות.

לְהַעֲרִיך

להריץ 10 פרקים. סיווג כל כשל לפי שלב (A/B/C/D)

יַעַד

זהה את שלב הכישלון הראשון. אסוף 20-30 הדגמות המכסות ספציפית את השלב הזה

התאמנו מחדש

הוסף הדגמות ממוקדות למערך הנתונים. אמן מחדש מאפס או כוונן את המחסום הטוב ביותר

לְהַעֲרִיך

הרץ שוב 10 פרקים. האם שיעור ההצלחה המלא השתפר? עבור לשלב הכישלון הבא.

מה הלאה

כעת יש לך צינור למידה דו-ידני עובד. העברת הקוביה היא הבסיס - אותה ארכיטקטורה מתקדמת למשימות מורכבות משמעותית:

הפעלה טלפונית במהירות משתנה

הפעלה טלפונית מותאמת מהירות למשימות עשירות במגע שבהן משוב כוח משנה את מהירות התנועה האופטימלית.

הוסף ידיים מיומנות

שלב את זרועות DK1 עם יד Orca עבור מיומנות ברמת האצבע במשימות הדורשות מניפולציה מדויקת ביד.

הגדל את מערך הנתונים שלך

טכניקות לשינוי קנה מידה של איסוף נתונים דו-ידני בין מפעילים, משימות ותצורות חומרה.

שתף את התוצאות שלך

פרסם את שיעור ההצלחה, מערך הנתונים והמדיניות שלך בפורום DK1. תוצאות דו-ידניות הן מהחשובות ביותר שהקהילה אוספת.

יחידה 6 השלם כאשר...

ה-DK1 שלך משלים את משימת מסירת הקובייה באופן אוטונומי עם שיעור הצלחה מלא של לפחות 6/10 בריצת הערכה מובנית. סיווגת את כל פרקי הכישלון לפי שלב (A/B/C/D) וזיהית איזה שלב אחראי לרוב הכישלונות. צפית בסרטוני הכישלון ויכולת לבטא במפורש מה השתבש. אתה מבין את גלגל התנופה הדו-ידני מספיק טוב כדי לתכנן את איטרציית השיפור הבאה שלך.

בנית מערכת לימוד רובוט דו-ידנית עובדת.

הגדרת ארכיטקטורת מנהיג/עוקב, אספת הדגמות מסונכרנות בשתי זרועות, אימנת מדיניות מתואמת מאפס ופרסת אותה על חומרה אמיתית. מניפולציה דו-ידנית ברמה זו היא המקום שבו פועלות מעבדות המחקר. הבסיס שבנית כאן מתאים למשימות הרכבה, בישול ומשימות עשירות במגע שלא היו בהישג יד לפני שהתחלת בדרך זו.