VLA & VLM
מודלים של חזון-שפה-פעולה וחזון-שפה - בקרת רובוט מותנית בשפה.
מה הם VLA ו-VLM?
VLM (מודל שפת חזון) - מודלים מולטי-מודאליים שמבינים גם תמונות וגם טקסט. משמש עבור כיתוב, VQA והארקה.
VLA (חזון-שפה-פעולה) - VLMs מורחבים לפלט פעולות רובוט. צלם תמונות + הוראות שפה, פקודות בקרת פלט (למשל, עמדות מפרקים, תפסן). אפשר בקרת סגנון "הרים את הבלוק האדום".
דגמי מפתח
- OpenVLA - 7B קוד פתוח VLA, 970K הדגמות
- RT-2 / RT-X — משפחת VLA של גוגל
- אוקטו - מדיניות דיפוזיה עם התניית שפה
- רובו פלמינגו - VLM מבוסס OpenFlamingo לרובוטים
משאבים קשורים
- מודלים של VLA ו-VLM בקוד פתוח - קטלוג מלא עם קישורים
- מערכי נתונים - נתוני מניפולציה עם תווית שפה