فلا وVLM

نماذج الرؤية واللغة والعمل ونماذج لغة الرؤية - التحكم في الروبوت المكيف باللغة.

ما هي VLA وVLM؟

VLM (نموذج الرؤية واللغة) - نماذج متعددة الوسائط تفهم كلاً من الصور والنصوص. يُستخدم للتسمية التوضيحية وVQA والتأريض.

VLA (الرؤية - اللغة - العمل) - تم توسيع VLMs لإخراج إجراءات الروبوت. التقاط الصور + تعليمات اللغة، وأوامر التحكم في الإخراج (على سبيل المثال، المواقف المشتركة، القابض). تمكين التحكم في نمط "التقاط الكتلة الحمراء".

النماذج الرئيسية

OpenVLA — 7B VLA مفتوح المصدر، 970 ألف عرض توضيحي
آر تي-2/آر تي-إكس - عائلة VLA من Google
اوكتو - سياسة الانتشار مع التكييف اللغوي
RoboFlamingo - VLM المستندة إلى OpenFlamingo للروبوتات

الموارد ذات الصلة

نماذج VLA وVLM مفتوحة المصدر - كتالوج كامل مع الروابط
مجموعات البيانات - بيانات التلاعب المسمى باللغة