הכללת מדיניות רובוט: מדוע הרובוט שלך נכשל באובייקטים חדשים

המדיניות שלך משיגה 90% הצלחה על אובייקטי האימון. אתה מציג כוס חדשה, קופסה אחרת, כלי לא מוכר - והביצועים יורדים ל-30%. זוהי בעיית ההכללה, והיא האתגר המרכזי של פריסת למידת רובוטים בעולם האמיתי.

מה המשמעות של הכללה עבור מדיניות רובוט

מדיניות רובוט מכליל כאשר הוא מבצע בהצלחה משימה על עצמים, עמדות ותנאים שלא נראו במהלך האימון. זה שונה מפשוט שינון ההתנהגות המופגנת - שינון מייצר מדיניות שבירה שנכשלת ברגע שתנאי הפריסה שונים מתנאי האימון. הכללה מחייבת את המדיניות ללמוד תפיסת משימה בסיסית (להרים את המיכל, לשפוך את הנוזל) במקום רצף תנועה ספציפי הקשור לקלט חזותי ספציפי.

ישנם צירים מרובים של הכללה שחשובים בפועל: הכללת מראה אובייקט (אותה צורה, צבע או מרקם שונה), הכללת גיאומטריית אובייקט (אותה קטגוריה, גודל שונה או צורה מדויקת), הכללת מיקום (אותו אובייקט, מיקום התחלה שונה), והכללה קומפוזיציונית (שילובים חדשים של מרכיבי משימה מוכרים). כל ציר דורש אסטרטגיות נתונים שונות והוא פחות או יותר קשה בהתאם לארכיטקטורת המדיניות.

למה זה נכשל: הסיבות השורשיות

הסיבה השכיחה ביותר להכללה לקויה היא גיוון לא מספיק במערך האימון. אם כל ההפגנות השתמשו באותו גביע אדום באותה עמדת התחלה, המדיניות לומדת תכונות ספציפיות לאותו גביע ולעמדה זו - לא את המושג הכללי של "כוס". המדיניות אינה יכולה להבחין בין "לאסוף את הספל האדום הספציפי הזה במיקום הספציפי הזה" לבין "להרים כל כוס בכל מקום". זה לא פגם באלגוריתם; זו בעיית נתונים.

סיבה משנית היא שינוי התפלגות בתכונות החזותיות. אם הדגמות אימון תועדו תחת תאורת אולפן מבוקרת והפריסה מתרחשת באור סביבה משתנה, ייתכן שהמאפיינים החזותיים שלמדה המדיניות לא יופעלו כהלכה בתצפיות בפריסה. באופן דומה, אם לאובייקט חדש יש מרקם או החזרה שונה מזו של אובייקטי אימון, ייתכן שהתכונות החזותיות ברמה הנמוכה המשמשת את עמוד השדרה של המדיניות לא תואמות את הציפיות. זו הסיבה שתקן איסוף הנתונים של SVRC דורש איסוף נתונים בתנאי תאורה מרובים ועם מופעי אובייקט מגוונים.

אסטרטגיות גיוון נתונים

הדרך האמינה ביותר לשיפור ההכללה היא גיוון מכוון של מערך הנתונים. למגוון אובייקטים: אסוף הדגמות עם לפחות 10-20 מופעים נפרדים של קטגוריית אובייקט היעד, בגודל, צבע, חומר ומותג משתנים. לגיוון עמדות: שנה את מיקום ההתחלה על פני רשת של 30-40 ס"מ וכלול כיוונים שונים. לגיוון ברקע: שנה את משטח סביבת העבודה, הוסף מסיחים ושנה את התאורה בין הפעלות.

הגדלת נתונים יכולה להשלים את הגיוון האמיתי אבל לא יכולה להחליף אותו. הגדלות חזותיות סטנדרטיות - ריצוד צבע, חיתוך אקראי, וריאציה של בהירות/ניגודיות - משפרות את החוסן לשינויי תאורה אך אינן מחליפות מופעי אובייקט מגוונים. יצירת נתונים מוגברים סינתטיים באמצעות עריכת תמונות או מודלים יצירתיים ליצירת וריאציות של אובייקט הוכיחה הבטחה אך דורשת בקרת איכות קפדנית כדי להימנע מהכנסת חפצים חזותיים לא מציאותיים.

VLAs לעומת מדיניות ספציפית למשימה

מודלים של חזון-שפה-פעולה (VLAs) - מדיניות שלוקחת הוראות שפה ותצפיות חזותיות כקלט ומייצרות פעולות - מציעות גישה שונה להכללה. על ידי ביסוס התנהגות הרובוט בייצוגים הסמנטיים העשירים של אימון מקדים בשפת ראייה גדולה, VLAs יכולים לפעמים להתמודד עם מופעים חדשים של אובייקט אפס על סמך המראה החזותי שלהם התואם לתיאור השפה ("הרים את הספל" מכליל על כל אובייקט שהמודל מזהה כספל). מודלים כמו OpenVLA, Octo ו-RT-2 הדגימו הכללה משמעותית של ירי אפס בכמה משימות מניפולציה.

עם זאת, VLAs אינם מכונות הכללה קסם. הם מצטיינים בהכללה סמנטית (מופעי אובייקט חדשים בתוך קטגוריה ידועה) אך עדיין נאבקים בהכללה גיאומטרית (צורות אובייקט חדשות הדורשות תצורות אחיזה שונות) ועם משימות הדורשות בקרת כוח מדויקת או התנהגות עשירה במגע. עבור רוב צוותי המחקר, ההמלצה המעשית היא: השתמש ב-VLA כנקודת התחלה או עמוד שדרה, ולאחר מכן כוונן את ההדגמות הספציפיות למשימה כדי להשיג את הדיוק והאמינות הדרושים לך.

שיטות הערכה להכללה

יש להעריך את ההכללה במפורש, ולא להסיק מביצועים בהפצה. פרוטוקול ההערכה הסטנדרטי משתמש במערך מבחן ממושך של אובייקטים שאינם נוכחים באימון - באופן אידיאלי 5-10 מופעי אובייקט לכל קטגוריה שהוחרגו בכוונה מאיסוף הנתונים. יש להעריך את הסט המתוחזק לאחר האימון ולדווח על שיעורי הצלחה בהפצה ומחוץ להפצה בנפרד. מדיניות המשיגה 85% בתוך חלוקה אך רק 40% מחוץ להפצה יש הכללה מוגבלת וצריכה נתוני הכשרה מגוונים יותר.

תקני האיכות של SVRC דורשים הערכת הכללה לפני שמערך נתונים מסומן מוכן לייצור. צינור ההערות וההערכה שלנו כולל ערכת אובייקטים מוחזקת עבור כל מערכי הנתונים של המניפולציה, וצוות ההנדסה שלנו יכול להריץ הערכות הכללה סטנדרטיות על מדיניות מיומנת. לעזרה בבניית מערך נתונים שניתן להכללה דרך שלנו שירותי נתונים, או לתמיכה בהערכה, צור קשר עם צוות SVRC.

קָשׁוּר: הסבר על מדיניות ACT · הערת נתוני רובוט · פתח את X-Embodiment · שירותי נתונים