מודלים של חזון-שפה-פעולה מוסבר: כיצד VLAs מחזקים רובוטים מודרניים
מודלים של ראייה-שפה-פעולה הם המקבילה לרובוטית של GPT-4 - רשתות עצביות מסיביות, מאומנות מראש, שניתן לכוונן עדין לביצוע מגוון רחב של משימות פיזיות. הבנת מה הם VLAs, איך הם עובדים ומתי להשתמש בהם היא כעת ידע חיוני עבור כל מתרגל רובוטיקה רציני.
מהו מודל חזון-שפה-פעולה?
מודל ראייה-שפה-פעולה (VLA) הוא רשת עצבית שלוקחת תצפיות ויזואליות (תמונות מצלמה) והוראות שפה טבעית כקלט, ומוציאה פעולות רובוט - מהירויות מפרקים, תנוחות קצה או פקודות אחיזה. החלק של "שפת חזון" מתייחס לעמוד השדרה שהוכשר מראש: המודלים הללו יורשים את ההבנה החזותית והסמנטית שלהם מאימון מקדים באינטרנט בקנה מידה גדול על צמדי תמונה-טקסט, בדומה ל-CLIP או מודל שפת ראייה (VLM). חלק ה"אקשן" הוא ראש כוונון עדין מאומן על נתוני הדגמת רובוטים.
התובנה המרכזית היא שאימון מקדים על נתוני אינטרנט נותן לרובוט ייצוג עשיר של העולם הפיזי - מהם אובייקטים, איך הם קשורים במרחב ומה משמעות השפה - לפני שהוא אי פעם ראה הדגמת רובוט. לאחר מכן, כוונון עדין מתאים את הייצוג הזה להתגלמות הרובוט ולמשימות היעד שלו. מכיוון שעמוד השדרה כבר מבין "להרים את הספל הכחול" או "לפתוח את המגירה משמאל", המודל יכול להכליל לאובייקטים חדשים ולביטויי משימות עם הרבה פחות הדגמות מאשר מדיניות שאומנה מאפס.
RT-2: ה-VLA הראשון בקנה מידה גדול
RT-2 (Robotics Transformer 2), ששוחרר על ידי Google DeepMind בשנת 2023, הייתה ההדגמה הראשונה לפיה קנה המידה של מודל שפת חזון לשליטה ברובוט יצר יכולות חדשות איכותיות. RT-2 כוונן יחד מודל שפת ראייה PaLI-X על נתוני אינטרנט ומסלולי רובוטים בו זמנית, ויצר מדיניות שיכולה לעקוב אחר הוראות חדשות, לנמק לגבי מאפייני אובייקט ולהכליל לאובייקטים שמעולם לא ראה בהדגמות רובוטים - רק באינטרנט.
RT-2 הראה ש-VLAs יכולים לבצע נימוקים של שרשרת מחשבה: התבקשו להרים "משהו שאתה יכול להשתמש בו כדי לנקות שפיכה", הדוגמנית זיהתה ספוג מהמקום מבלי שנאמר לו אי פעם במפורש לשייך ספוגים לניקוי. היכולת המתהווה הזו - הכללה סמנטית מעבר להפצת ההדרכה - היא מה שמייחד את ה-VLAs באופן איכותי ממדיניות למידה חיקוי קלאסית. הפשרה היא מחשוב: RT-2 פועל על מודל עם 55 מיליארד פרמטרים, הדורש תשתית משמעותית לפריסה.
OpenVLA: כוונון VLA בקוד פתוח
OpenVLA, ששוחרר על ידי חוקרי סטנפורד וברקלי בשנת 2024, עשה דמוקרטיזציה של כוונון VLA עדין על ידי בנייה על הקוד הפתוח Prismatic VLM (בעצמו מבוסס על LLaMA) והדרכה על מערך הנתונים של Open X-Embodiment - אוסף של 970 אלף פרקים של הדגמות רובוטים מ-22 התגלמויות שונות. OpenVLA היא נקודת ההתחלה שרוב צוותי המחקר משתמשים בהם כיום מכיוון שהוא קוד פתוח לחלוטין, מתועד היטב ומשיג ביצועים חזקים על מדדי מניפולציה סטנדרטיים.
כוונון עדין של OpenVLA במשימה מותאמת אישית דורש רק 50–200 הדגמות, מערך נתונים מעוצב עם מוסכמות HuggingFace LeRobot ו-GPU יחיד של 80GB A100 או H100 לריצת אימון של מספר שעות. המדיניות המתקבלת מסוגלת באופן מפתיע להכליל לוריאציות של סצנה ולמיקומי אובייקט חדשניים שלא נראו באימון, באדיבות עמוד השדרה החזותי שהוכשר מראש. של SVRC שירות איסוף נתונים מייצר מערכי נתונים בפורמט תואם LeRobot, מוכן לכוונון עדין של OpenVLA מהקופסה.
pi0: המדיניות הכללית של המודיעין הפיזי
pi0, מ-Physical Intelligence (pi.ai), מייצגת את הגבול המסחרי של פיתוח VLA. בניגוד ל-OpenVLA, שיורשת עמוד שדרה של מודל שפה, pi0 משתמש בראש פעולה תואם זרימה שמייצר מסלולי פעולה רציפים וחלקים - מתאימים יותר למשימות זריזות מאשר פעולות בדיד. pi0 הוכשר על מערך נתונים קנייני של למעלה מ-10,000 שעות של הדגמות רובוטים על פני עשרות משימות ופלטפורמות חומרה.
מה שמייחד את pi0 מבחינה ארכיטקטונית הוא ההפרדה בין מסלול ההיגיון המותנה בשפה ה"איטי" לבין מסלול הבקרה המוטורית התגובתית ה"מהיר". זה משקף תובנות מהמדע הקוגניטיבי על מערכות בקרה דו-תהליכים. המסלול האיטי מעבד את הוראת המשימה ואת הסצנה הנוכחית כדי לייצר תוכנית ברמה גבוהה; המסלול המהיר מייצר פקודות מוטוריות עם אחזור נמוך. התוצאה היא מדיניות שיכולה להתמודד הן עם חשיבה ארוכת טווח והן בקרה תגובתית בתדר גבוה - פתיחת הדלת למשימות כמו קיפול כביסה, שבהן שתיהן נדרשות בו זמנית.
גישה ל-pi0 לפריסה מסחרית זמינה דרך התוכנית הארגונית של Physical Intelligence. לצוותים החוקרים ארכיטקטורות בסגנון pi0, של SVRC אמות מידה כולל הערכות של מדיניות התאמת זרימה על חבילות מניפולציה סטנדרטיות, מה שנותן לך נקודת התייחסות לביצועים צפויים לפני התחייבות לריצת אימון.
כיצד VLAs שונים ממדיניות למידה חיקוי קלאסית
מדיניות IL קלאסית - ACT, Diffusion Policy, BC-Z - למדה לחלוטין מנתוני הדגמה של רובוטים. הייצוגים החזותיים שלהם נלמדים מאפס או ממקודד צר שהוכשר מראש (כמו R3M או MVP). הם מכלילים היטב במסגרת הפצת האימונים שלהם, אך נאבקים עם חפצים חדשים, שינויים בתאורה או הוראות משימה המנסחות מחדש את המטרה. הם גם דורשים יותר הדגמות כדי להשיג רמת ביצועים נתונה, כי הם חסרים את הקדם הסמנטי שמספק אימון מקדים.
VLAs סחר מחשוב עבור הכללה. מדיניות ACT קלאסית על GPU עולה גרושים לכל הסקה; שלב מסקנות VLA במודל של 7B פרמטרים עולה בסדרי גודל יותר. עבור משימות שצריכות להכליל באופן רחב על פני סביבות והוראות, VLAs מנצחים. עבור משימה תעשייתית מוגדרת מצומצמת וחוזרת על עצמה שבה יש לך יותר מ-1,000 הדגמות ואתה יכול לכוון את הסביבה, מדיניות קלאסית משיגה לעתים קרובות מהירות ואמינות טובים יותר בעלות נמוכה יותר. מסגרת ההחלטה המעשית: אם המשימה שלך דורשת הכללה, התחל עם עמוד שדרה של VLA. אם הוא צר ותפוקה גבוהה, בצע אופטימיזציה של מדיניות קלאסית.
כוונון עדין של VLAs עם נתונים SVRC
SVRC מספקת תמיכה מקצה לקצה עבור פרויקטי כוונון עדין של VLA. שֶׁלָנוּ תשתית תפעול טלפונית לוכד הדגמות בפורמט RLDS/LeRobot עם וידאו מסונכרן מרובה מצלמות, מצב פרופריוספטיבי ותוויות פעולה ב-50Hz. צינורות הנתונים שלנו כוללים סינון איכות פרקים (הסרת ניסיונות כושלים והיסוסים), מטא נתונים של כיול מצלמה והערת הוראות משימה.
עבור צוותים שזקוקים לנתונים מותאמים אישית בקנה מידה, שירות האיסוף המנוהל שלנו במתקן Palo Alto יכול להפיק מאות הדגמות ביום עם מפעילים מאומנים על פני ספריית משימות מניפולציה. אנו מציעים גם ייעוץ בנושא עיצוב משימות - הגדרת ההיקף, צירי הווריאציה וקריטריוני ההצלחה עבור מערך נתונים שיאמן למעשה מדיניות הניתנת להכללה. צור קשר עם הצוות שלנו כדי לדון בפרויקט כוונון ה-VLA שלך, או לחקור את קטלוג הנתונים הקיים שלנו דרך ה- פלטפורמת SVRC.