לימוד רובוטים

לימוד חיקוי לרובוטים: מדריך מעשי

למידת חיקוי התגלתה כפרדיגמה השלטת להוראת רובוטים מיומנויות מניפולציה מיומנות. במקום ליצור פונקציות תגמול בעבודת יד או לכתוב תוכניות תנועה, אתה פשוט מראה לרובוט מה לעשות. המדריך הזה מסביר איך זה עובד, באילו אלגוריתמים להשתמש ואיזו תשתית אתה צריך כדי להשיג תוצאות.

מהי לימוד חיקוי?

למידה חיקוי (IL) - הנקראת גם למידה מהדגמה (LfD) או שיבוט התנהגותי - מכשירה מדיניות לשכפל פעולות שנלכדו ממפעיל אנושי. במהלך איסוף הנתונים, מפגין מיומן מעביר את הרובוט דרך משימת המטרה בזמן שחיישנים מתעדים עמדות מפרקים, תנוחות של גורם קצה, פריימים של מצלמה וכל מצב רלוונטי אחר. הנתונים המוקלטים האלה הופכים למערך ההדרכה למדיניות רשת עצבית.

המשיכה של IL על למידת חיזוקים היא מעשית: אינך צריך להנדס אות תגמול, להפעיל מיליוני השקות סימולציות או לפתור בעיית חקר דל-תגמול. אם אדם יכול לבצע את המשימה, הרובוט יכול ללמוד אותה מכמה מאות עד כמה אלפי הדגמות. האתגר הוא הכללה - מדיניות המתאמנת בהדגמות צרות יכולה להיכשל כאשר מיקומי אובייקט, תאורה או וריאציות של משימות שונות מהתפלגות ההדרכה.

מחקר IL מודרני מתייחס לכך באמצעות ארכיטקטורות טובות יותר, מערכי נתונים גדולים ומגוונים יותר, וייצוגים חזותיים מאומנים מראש. התחום התקדם במהירות מאז 2023, ולמידת חיקוי באיכות ייצור נמצאת כעת בהישג ידם של צוותים ללא גישה לתוכנית דוקטורט ברובוטיקה.

ACT: אקשן צ'אנקינג עם רובוטריקים

ACT, שהוצגה לצד פלטפורמת הרובוטים הדו-מנויים ALOHA מסטנפורד, מתייחסת לשליטה ברובוט כבעיית חיזוי רצף. המדיניות חוזה נתח של פעולות עתידיות - בדרך כלל 50-100 שלבי זמן - במקום פעולה אחת הבאה. נתח הפעולה הזה מפחית את שגיאות ההרכבה, שהוא מצב הכישלון העיקרי של שיבוט התנהגותי נאיבי שבו טעויות חיזוי קטנות מצטברות לאורך מסלול.

ACT משתמש ב- CVAE (Conditional Variational Autoencoder) במהלך האימון כדי ללכוד את הרב-מודאליות של הדגמות אנושיות - העובדה שלעתים קרובות יש יותר מדרך אחת נכונה להשלים משימה. בזמן היסק, המפענח יוצר רצפי פעולה המותנים בתצפיות המצלמה הנוכחיות ובמצב המשותף. התוצאה היא מדיניות המטפלת בשונות הטבעית במשימות שהודגמו על ידי אדם ללא חפצים של ממוצע מצבים.

ACT היא נקודת מוצא חזקה למשימות מניפולציה דו-ידניות. זה דורש נפחי נתונים צנועים יחסית (50-200 הדגמות למשימה) ומתאמן על GPU בודד תוך שעות. אם אתה עובד עם חומרת ALOHA או הגדרה דו-ידנית דומה, ACT צריך להיות האלגוריתם הראשון שלך לנסות. של SVRC שירותי נתונים כולל מערכי נתונים מעובדים מראש התואמים ACT שנאספו בפלטפורמות מסוג ALOHA.

מדיניות דיפוזיה: טיפול בהפצות פעולות רב-מודאליות

מדיניות דיפוזיה מיישמת מודלים של דיפוזיה תואמים לניקוד - אותה כיתה של מודלים שמפעילה דיפוזיה יציבה עבור תמונות - על מרחב הפעולה של הרובוט. במקום לחזות פעולה אחת הטובה ביותר, המדיניות לומדת את ההפצה המלאה של הפעולות שמפגין אנושי עשוי לנקוט. בזמן מסקנות היא מפעילה תהליך דהינויזינג כדי לדגום פעולה באיכות גבוהה מאותה הפצה.

היתרון המרכזי על פני ACT הוא האופן שבו הוא מטפל במשימות מולטי-מודאליות: תרחישים שבהם אדם עשוי לתפוס אובייקט משמאל או מימין, או להתקרב למטרה מכמה זוויות תקפות. שיבוט התנהגותי סטנדרטי עושה ממוצע של מצבים אלה יחד, מייצר מדיניות שיורדת באמצע ונכשלת. דגימות מדיניות דיפוזיה מהמצב הנכון בהתחשב בהקשר הנוכחי, מייצרות התנהגות חזקה יותר במשימות מעורפלות.

הפשרה היא מהירות ההסקה. מדיניות דיפוזיה עם עמוד שדרה של UNet דורשת כברירת מחדל 100 שלבים דה-noising בהסקה, שיכולים להיות איטיים מדי לשליטה בזמן אמת. גרסאות הדגימה של DDIM וזיקוק עקביות מצמצמות זאת ל-10-25 שלבים, מה שהופך את הפעולה בזמן אמת לבת קיימא. עבור דרישות נתונים, מדיניות Diffusion מרוויחה בדרך כלל מיותר הדגמות מאשר ACT, אך מתגמלת גיוון מערכי נתונים יותר מאשר כמות גולמית.

מודלים של חזון-שפה-פעולה: IL בקנה מידה

VLAs כמו OpenVLA, pi0 ו-RT-2 מרחיבים את למידת החיקוי על ידי אימון מקדים על נתונים חזותיים ושפות בקנה מידה אינטרנט לפני כוונון עדין על הדגמות רובוטים. עמוד השדרה המאומן מראש מספק ייצוג עשיר של אובייקטים, סצנות ומערכות יחסים שעוברות בעוצמה למניפולציה של רובוט. כוונון עדין דורש הרבה פחות הדגמות מאשר אימון מאפס - לפעמים רק 10-50 דוגמאות ספציפיות למשימה.

עבור צוותים שיכולים להרשות לעצמם את דרישות המחשוב והרישוי, VLAs מייצגים את הגבול הנוכחי של ביצועי IL. הם מכלילים טוב יותר לאובייקטים חדשים, לסביבות חדשות ולווריאציות משימות שצוינו בשפה. SVRC מספק מערכי נתונים לכוונון עדין ו תשתית תפעול טלפונית תואם לפורמטי הנתונים הצפויים על ידי צינורות ההדרכה העיקריים של VLA. ראה שלנו מדריך מוסבר על דגמי VLA להתמוטטות טכנית עמוקה יותר.

דרישות נתונים ללימוד חיקוי

מערך הנתונים המינימלי בר-קיימא עבור משימת מניפולציה אחת הוא בדרך כלל 50 הדגמות עבור ACT, 100-200 עבור מדיניות דיפוזיה ו-20-50 עבור כוונון עדין של VLA. אלו הן הערכות רצפה בתנאים נוחים - תאורה עקבית, נקודות מבט קבועות של מצלמה ואובייקטים במיקומים צפויים. פריסה בעולם האמיתי דורשת פי 3-5 יותר נתונים כדי לכסות את הווריאציה שהמערכת שלך תפגוש בייצור.

איכות הנתונים חשובה לא פחות מהכמות. יש לאסוף הפגנות על ידי מפעילים מיומנים אשר משלימים את המשימה באופן עקבי ונקי. ניסיונות כושלים, התלבטויות ותיקונים שנכנסים למערך האימונים כמוצלחות מתויגות ידרדרו את ביצועי המדיניות. של SVRC שירות איסוף נתונים מנוהל מספק מפעילים מאומנים, בחירת פרקים עם סינון איכות ואריזת נתונים מובנית - חוסך לצוות ההנדסה שלך שבועות של עבודה בצנרת נתונים.

גם גיוון החיישנים חשוב. מדיניות המתאמנת על מצלמת פרק כף יד בודדת נכשלת לעתים קרובות כאשר המצלמה הזו חסומה. השיטה הטובה ביותר היא לאסוף לפחות משתי נקודות מבט של מצלמה - אחת קבועה מעלה או מבט מהצד ואחת תלויה בפרק כף היד - ולכלול מצב פרופריוצפטיבי (זוויות ומהירויות מפרקים) לצד תצפיות חזותיות.

חומרה ותשתית למחקר IL

מחסנית החומרה המינימלית עבור פרויקט מחקר חיקוי כולל: זרוע רובוט עם דרגות חופש מספקות למשימה שלך (לפחות 6-DOF למניפולציה כללית), מערכת טל-פעולה מנהיגה או מבוססת VR לאיסוף נתונים, שתי מצלמות או יותר ותחנת עבודה עם NVIDIA GPU אחד לפחות (RTX 3090 או טוב יותר עבור ACT/Diftuning מדיניות מומלצת עבור ACT/Dif00- ACT או HLA);

של SVRC קטלוג חומרה כולל את פלטפורמת OpenArm, הנשלחת עם זרוע מובילה להפעלה טלפונית תואמת וחומרת הרכבה עבור תצורות מצלמה סטנדרטיות. ה פלטפורמת SVRC מספק את שכבת התוכנה: הקלטת פרקים, ניהול מערכי נתונים, צינורות הדרכה למדיניות וכלי הערכה. צוותים יכולים לשכור במקום לקנות חומרה לפרויקטים קצרי טווח דרך תוכנית ליסינג רובוטים, שהוא לרוב הדרך המהירה ביותר לאב טיפוס IL עובד.

לצוותים שרוצים להתחיל עם נתונים לפני שהם משקיעים בחומרה, SVRC מציע גישה למערכי נתונים של הדגמה מרובת משימות שנאספו במתקן Palo Alto שלנו. מערכי נתונים אלה מכסים פרימיטיבים נפוצים של מניפולציה - איסוף, מיקום, מזיגה, קיפול, הרכבה - והם מעוצבים לשימוש ישיר עם ACT, Diffusion Policy ו-Huging Face LeRobot. צור קשר עם הצוות שלנו כדי לדון באפשרויות הגישה למערך נתונים.