فلا وVLM
نماذج الرؤية واللغة والعمل ونماذج لغة الرؤية - التحكم في الروبوت المكيف باللغة.
ما هي VLA وVLM؟
VLM (نموذج الرؤية واللغة) - نماذج متعددة الوسائط تفهم كلاً من الصور والنصوص. يُستخدم للتسمية التوضيحية وVQA والتأريض.
VLA (الرؤية - اللغة - العمل) - تم توسيع VLMs لإخراج إجراءات الروبوت. التقاط الصور + تعليمات اللغة، وأوامر التحكم في الإخراج (على سبيل المثال، المواقف المشتركة، القابض). تمكين التحكم في نمط "التقاط الكتلة الحمراء".
النماذج الرئيسية
- OpenVLA — 7B VLA مفتوح المصدر، 970 ألف عرض توضيحي
- آر تي-2/آر تي-إكس - عائلة VLA من Google
- اوكتو - سياسة الانتشار مع التكييف اللغوي
- RoboFlamingo - VLM المستندة إلى OpenFlamingo للروبوتات
الموارد ذات الصلة
- نماذج VLA وVLM مفتوحة المصدر - كتالوج كامل مع الروابط
- مجموعات البيانات - بيانات التلاعب المسمى باللغة