הסבר על מדיניות ACT: פעולה chunking עם רובוטריקים ללמידת רובוטים

ACT - Action Chunking with Transformers - הפך לאחד מאלגוריתמי הלמידה החיקויים המאומצים ביותר עבור מניפולציה זריזה לאחר פרסומו על ידי טוני ז'או ומשתפי פעולה בסטנפורד. הנה הסבר מעשי על איך זה עובד וכיצד להשתמש בו.

מה זה ACT?

ACT הוא אלגוריתם למידה חיקוי המיועד למשימות מניפולציה עדינות שבהן הרובוט חייב לבצע תנועות חלקות ומתואמות על סמך תצפיות חזותיות. בזמן מסקנות, ACT לוקח רצף של תמונות ממצלמות הרובוט וממצב המשותף הנוכחי, ומוציא חלק של פעולות עתידיות - רצף קצר של מטרות מיקום משותף - במקום פעולה אחת הבאה. הרובוט מבצע את הנתח הזה, ואז שואל מחדש את המדיניות עבור הנתח הבא. עיצוב זה לחזות-צעדים רבים-קדימה הוא התכונה המגדירה של ACT והמקור לרוב היתרונות שלו על פני שיבוט התנהגות פשוט יותר.

ACT הוצג בהקשר של מערכת המניפולציה הדו-ידנית ALOHA והדגימה הצלחה במשימות שנחשבו בעבר מחוץ להישג יד ללימוד חיקוי: חריץ סוללה, פתיחת תיק זיפלוק, השחלת מחט. התובנה המרכזית שלו - כי חיזוי פעולה חלקים מפחית שגיאות בהרכבה ומחליק מסלולים - אומצה מאז באלגוריתמי המשך רבים.

איך פעולה צ'אנקינג עובד

שיבוט התנהגות סטנדרטי (BC) מאמן מדיניות לחזות את הפעולה הבודדת הבאה בהתחשב בתצפית הנוכחית. בזמן היסק מצטברות שגיאות חיזוי: כל טעות קטנה מסיטה מעט את מצב הרובוט, מכניסה אותו להתפלגות שעליה לא הוכשרה המדיניות, מה שגורם לתחזית הבאה להיות גרועה יותר, וכן הלאה. שגיאה מורכבת זו היא מצב הכשל המרכזי של BC תמימה במשימות מניפולציה עדינות.

נתחי פעולה שובר את המעגל הזה על ידי חיזוי רצף של k פעולות עתידיות - בדרך כלל 50-100 צעדים ב-50 הרץ, המקבילים ל-1-2 שניות של תנועה. המדיניות מתחייבת לתוכנית זו ומבצעת אותה לפני שאילתה חוזרת. מכיוון שהתוכנית נוצרה מתצפית אחת עקבית, המסלול חלק ועקבי פנימי. הרכבה זמנית - ממוצע של נתחי פעולה חופפים ממספר שאילתות חוזרות - מחליק עוד יותר את הביצוע ומפחית ריצוד בגבולות בין נתחים.

ארכיטקטורת ACT

ACT משתמש בארכיטקטורת CVAE (Conditional Variational Autoencoder). במהלך האימון, מקודד מעבד את כל מסלול ההדגמה - תמונות, מצבים משותפים ופעולות - ומייצר משתנה סגנון סמוי z שלוכד את ה"סגנון" של ההדגמה (גישה מהירה לעומת איטית, גישה שמאלה מול נטייה ימנית וכו'). לאחר מכן מפענח מבוסס שנאי לוקח את התצפית הנוכחית, את ה-z הסמוי והקידודים המיקוםיים, ומנבא את נתח הפעולה. בזמן היסק, z מוגדר לאפס (הממוצע של הקודם), מה שהופך את המדיניות לדטרמיניסטית בהתחשב בתצפית.

עמוד השדרה של הראייה הוא בדרך כלל ResNet-18 המעבד כל תצוגת מצלמה באופן עצמאי, כאשר מפות התכונות המתקבלות מועברות כאסימונים למפענח השנאי. תצוגות מצלמה מרובות - מצלמות שורש כף יד בתוספת מצלמות עיליות - כל אחת תורמת זרם אסימון, ומעניקה למדיניות מידע מרחבי עשיר על סצנת המניפולציה.

דרישות נתונים ומהם נתונים טובים

ACT עובד היטב עם 50-200 הדגמות לכל משימה ברוב התוצאות שפורסמו. עם זאת, איכות הנתונים חשובה יותר מהכמות. ההפגנות צריכות להיות חלקות ותכליתיות - מדיניות ה-ACT תלמד כל דפוס תנועה שיש בנתונים, כולל היסוסים, תיקונים וגישות לא אופטימליות. של SVRC תקן איסוף נתונים מחייב את המפעילים להפעיל מחדש פרק במקום להמשיך לאחר שגיאה גלויה, תוך הקפדה על מערך ההדרכה מכיל רק התנהגויות מכוונות ומוצלחות.

עקביות המצלמה היא גם קריטית. אם מיקום המצלמה משתנה בין הפעלות הקלטה, התכונות החזותיות שהמדיניות למדה לא יתאימו עוד להגדרת הפריסה. השתמש בתושבות פיזיות במקום בזרועות גמישות, ורשום את פרמטרי כיול המצלמה עם כל מערך נתונים. צינור ההקלטה מרובה המצלמות של SVRC אוכף זאת באופן אוטומטי.

ACT לעומת שיבוט התנהגות: תוצאות

במשימות ALOHA המקוריות, ACT השיגה אחוזי הצלחה של 80-95% לעומת 20-50% עבור BC סטנדרטי באותם נתונים. השיפור בולט ביותר במשימות הדורשות תזמון מדויק, תיאום חלק בין שתי זרועות והתאוששות חיננית מהפרעות קטנות. במשימות בחירה ומקום פשוטות יותר עם סובלנות סלחנית, הפער בין ACT ל-BC מצטמצם. ACT גם מעלה ביצועים של Diffusion Policy במשימות שבהן מהירות הביצוע חשובה, שכן מדיניות מבוססת דיפוזיה דורשת יותר חישוב לכל שלב מסקנות.

אימון ACT עם SVRC Data

של SVRC פלטפורמת נתונים מייצא מערכי נתונים בפורמט HDF5 תואם LeRobot, שהוא פורמט הקלט הסטנדרטי עבור קוד האימון ACT בקוד פתוח. לאחר הורדת מערך הנתונים שלך, אימון של מדיניות ACT בסיסית דורש GPU עם לפחות 16 GB VRAM וכ-8 שעות הדרכה עבור משימה אחת. תמיכה הנדסית SVRC זמינה כדי לעזור לצוותים להגדיר ריצות הדרכה, לכוון את גודל הנתחים וקצב הלמידה ולהעריך את ביצועי המדיניות. לחומרה לאיסוף הנתונים שלך, ראה שלנו קטלוג חומרה או לחקור אפשרויות ליסינג רובוטים.

קָשׁוּר: מדריך לרובוט · הגדרת ALOHA לנייד · הערת נתוני רובוט · פתח את X-Embodiment