← المسرد

فلا وVLM

نماذج الرؤية واللغة والعمل ونماذج لغة الرؤية - التحكم في الروبوت المكيف باللغة.

ما هي VLA وVLM؟

VLM (نموذج الرؤية واللغة) - نماذج متعددة الوسائط تفهم كلاً من الصور والنصوص. يُستخدم للتسمية التوضيحية وVQA والتأريض.

VLA (الرؤية - اللغة - العمل) - تم توسيع VLMs لإخراج إجراءات الروبوت. التقاط الصور + تعليمات اللغة، وأوامر التحكم في الإخراج (على سبيل المثال، المواقف المشتركة، القابض). تمكين التحكم في نمط "التقاط الكتلة الحمراء".

النماذج الرئيسية

  • OpenVLA — 7B VLA مفتوح المصدر، 970 ألف عرض توضيحي
  • آر تي-2/آر تي-إكس - عائلة VLA من Google
  • اوكتو - سياسة الانتشار مع التكييف اللغوي
  • RoboFlamingo - VLM المستندة إلى OpenFlamingo للروبوتات

الموارد ذات الصلة