מהו דגם VLA?

מודלים של Vision-Language-Action (VLA) לוקחים תצפיות חזותיות והוראות שפה כפעולות קלט ופלט ישיר של רובוט. הם משלבים את ההבנה החזותית של מודלים בשפת ראייה (VLMs) עם יכולות שליטה מוטוריות המאומנות על נתוני הדגמת רובוטים. חשבו עליהם כעל מודלים בסיסיים לבקרת רובוטים.

דגמי VLA מפתח בהשוואה

RT-2 (Google DeepMind): 55B פרמטרים, הכללה חזקה, לא זמין לציבור. OpenVLA (סטנפורד/ברקלי): 7B פרמטרים, קוד פתוח, ניתן לכוונון עדין על נתונים מותאמים אישית. אוקטו (ברקלי): 93 מיליון פרמטרים, הסקה מהירה, תומך במספר התגלמויות של רובוטים. π₀ (אינטליגנציה פיזית): VLA מבוסס דיפוזיה, מניפולציה מיומנת חזקה.

  • למחקר עם מחשוב מוגבל: Octo
  • לכוונון עדין במשימות מותאמות אישית: OpenVLA
  • ליכולת הגבוהה ביותר: π₀ (אם זמין)

שיקולי פריסה

דגמי VLA דורשים הסקת GPU (בדרך כלל RTX 3090 או טוב יותר). חביון ההסקה נע בין 50ms (אוקטובר) ל-500ms+ (OpenVLA 7B). נתחי פעולה עוזרים לגשר על הפער בין מסקנות איטיות ללולאות בקרה מהירות. כוונון עדין של 50-200 הדגמות ספציפיות למשימות מניב בדרך כלל תוצאות חזקות. SVRC מספקת תחנות עבודה מוגדרות מראש לפיתוח VLA.