OpenVLA לעומת Octo: באיזה מודל לימוד רובוט לבחור?

השוואה מעשית לחוקרים ובונים הבוחרים במודל חזון-שפה-פעולה (VLA).

מודלים של VLA ממפים תפיסה + שפה לפעולות

תמונות שָׂפָה פעולות

שְׁנֵיהֶם OpenVLA ו אוקטו הם מודלים של חזון-שפה-פעולה בקוד פתוח ללימוד רובוטים. הנה איך הם משווים ומתי להשתמש בכל אחד מהם.

אַדְרִיכָלוּת

OpenVLA מתבסס על Prismatic VLM ומוסיף ראשי חיזוי פעולה. הוא תומך במספר רב של מורפולוגיות רובוט ומרחבי פעולה. אוקטו משתמש בארכיטקטורה מבוססת שנאים שהוכשרה על נתוני Open X-Embodiment. שניהם לוקחים תמונות + שפה ופעולות פלט.

נתוני אימון

OpenVLA מאומן על Open X-Embodiment ומערכי נתונים נוספים. Octo מאומן על Open X-Embodiment (RT-X, BridgeData, DROID וכו'). שניהם נהנים מנתוני רובוט מגוונים בקנה מידה גדול. ראה שלנו קטלוג מערכי נתונים עבור מקורות נתונים.

כוונון עדין

שניהם תומכים בכוונון עדין של הרובוט והמשימה שלך. בדרך כלל 50-500 הדגמות יכולות לשפר את הביצועים באופן משמעותי. OpenVLA מציע נקודות ביקורת עבור סוגי רובוטים שונים. הארכיטקטורה של Octo גמישה עבור חללי פעולה חדשים.

מתי לבחור ב-OpenVLA

אתה צריך ביצועים חזקים מחוץ לקופסה במשימות מניפולציה נפוצות
הרובוט שלך דומה לאלו ב-Open X-Embodiment (WidowX, ALOHA וכו')
אתה רוצה מודל מתועד היטב, מתוחזק באופן פעיל

מתי לבחור Octo

אתה מתנסה במורפולוגיות רובוטיות חדשות
אתה רוצה גמישות מקסימלית עבור חללי פעולה מותאמים אישית
אתה בונה ישירות על נתוני Open X-Embodiment

איסוף נתונים לכיוונון עדין

בכל דגם שתבחר, סביר להניח שתצטרך הדגמות ספציפיות למשימה. אנחנו מציעים שירותי איסוף נתונים ללימוד חיקוי - טלאופרציה, עיצוב מוכן ללמידה ו-QA. איסוף חומרה באותו יום בסן פרנסיסקו לאיטרציה מהירה.

הצג את כל דגמי VLA →