← דגמים

InternVLA-M1

מסגרת חזון-שפה-פעולה מונחה מרחבית למדיניות רובוטים כללית. מעבדת בינה מלאכותית של שנחאי.

סקירה כללית

InternVLA-M1 משתמש בצינור דו-שלבי: (1) אימון מקדים של הארקה מרחבית על 2.3 מיליון דגימות כדי לקבוע "היכן לפעול", (2) פעולה מונחית מרחבית לאחר אימון עבור "איך לפעול". מודולרי, ניתן להרחבה, עם פיקוח כפול.

אמות מידה

  • רובוט גוגל 71.7% (WidowX), 76.0% (VM), 80.7% (VA)
  • LIBERO 95.9% הצלחה
  • +14.6% על SimplerEnv, +20.6% על עצמים בלתי נראים עם אימון משותף סינתטי

קישורים רשמיים

צִיטָטָה

עיין באתר הפרויקט עבור BibTeX והפניות לנייר.