← النماذج

إنترنفلا-M1

إطار الرؤية واللغة والعمل الموجه مكانيًا لسياسة الروبوت العامة. مختبر شنغهاي للذكاء الاصطناعي.

ملخص

يستخدم InternVLA-M1 خط أنابيب من مرحلتين: (1) التدريب المسبق على التأريض المكاني على 2.3 مليون عينة لتحديد "مكان التصرف"، (2) العمل الموجه مكانيًا بعد التدريب على "كيفية التصرف". وحدات، قابلة للتوسيع، مع إشراف مزدوج.

المعايير

  • جوجل روبوت 71.7% (WidowX)، 76.0% (VM)، 80.7% (VA)
  • LIBERO نجاح 95.9%
  • +14.6% في SimplerEnv، +20.6% في الكائنات غير المرئية مع التدريب الاصطناعي المشترك

الروابط الرسمية

الاقتباس

راجع موقع المشروع لـ BibTeX والمراجع الورقية.