← מילון מונחים

VLA & VLM

מודלים של חזון-שפה-פעולה וחזון-שפה - בקרת רובוט מותנית בשפה.

מה הם VLA ו-VLM?

VLM (מודל שפת חזון) - מודלים מולטי-מודאליים שמבינים גם תמונות וגם טקסט. משמש עבור כיתוב, VQA והארקה.

VLA (חזון-שפה-פעולה) - VLMs מורחבים לפלט פעולות רובוט. צלם תמונות + הוראות שפה, פקודות בקרת פלט (למשל, עמדות מפרקים, תפסן). אפשר בקרת סגנון "הרים את הבלוק האדום".

דגמי מפתח

  • OpenVLA - 7B קוד פתוח VLA, 970K הדגמות
  • RT-2 / RT-X — משפחת VLA של גוגל
  • אוקטו - מדיניות דיפוזיה עם התניית שפה
  • רובו פלמינגו - VLM מבוסס OpenFlamingo לרובוטים

משאבים קשורים