ما هو نموذج VLA؟
تأخذ نماذج الرؤية واللغة والعمل (VLA) الملاحظات المرئية وتعليمات اللغة كمدخلات وإخراج إجراءات الروبوت مباشرة. فهي تجمع بين الفهم البصري لنماذج لغة الرؤية (VLMs) وإمكانيات التحكم في المحركات المدربة على بيانات العرض التوضيحي للروبوت. فكر فيها كنماذج أساسية للتحكم في الروبوت.
مقارنة نماذج VLA الرئيسية
RT-2 (Google DeepMind): 55B معلمات، تعميم قوي، غير متاح للعامة. OpenVLA (ستانفورد/بيركلي): معلمات 7B، مفتوحة المصدر، قابلة للضبط الدقيق على البيانات المخصصة. Octo (بيركلي): 93 مليون معلمة، استنتاج سريع، يدعم تجسيدات الروبوت المتعددة. π₀ (الذكاء الجسدي): VLA القائم على الانتشار، والتلاعب القوي ببراعة.
- للبحث ذو الحساب المحدود: Octo
- لضبط المهام المخصصة: OpenVLA
- للحصول على أعلى قدرة: π₀ (إذا كان متاحًا)
اعتبارات النشر
تتطلب نماذج VLA استدلال وحدة معالجة الرسومات (عادةً RTX 3090 أو أفضل). يتراوح زمن الوصول للاستدلال من 50 مللي ثانية (Octo) إلى 500 مللي ثانية + (OpenVLA 7B). يساعد تقسيم الإجراء على سد الفجوة بين الاستدلال البطيء وحلقات التحكم السريعة. عادةً ما يؤدي الضبط الدقيق للعروض التوضيحية الخاصة بمهمة محددة من 50 إلى 200 إلى نتائج قوية. يوفر SVRC محطات عمل تم تكوينها مسبقًا لتطوير VLA.