إنترنفلا-M1

إطار الرؤية واللغة والعمل الموجه مكانيًا لسياسة الروبوت العامة. مختبر شنغهاي للذكاء الاصطناعي.

ملخص

يستخدم InternVLA-M1 خط أنابيب من مرحلتين: (1) التدريب المسبق على التأريض المكاني على 2.3 مليون عينة لتحديد "مكان التصرف"، (2) العمل الموجه مكانيًا بعد التدريب على "كيفية التصرف". وحدات، قابلة للتوسيع، مع إشراف مزدوج.

المعايير

جوجل روبوت 71.7% (WidowX)، 76.0% (VM)، 80.7% (VA)
LIBERO نجاح 95.9%
+14.6% في SimplerEnv، +20.6% في الكائنات غير المرئية مع التدريب الاصطناعي المشترك

الروابط الرسمية

internrobotics.github.io/internvla-m1 - موقع المشروع
github.com/InternRobotics/InternVLA-M1 — الكود (مع)
معانقة الوجه: InterRobotics - النماذج ومجموعات البيانات

الاقتباس

راجع موقع المشروع لـ BibTeX والمراجع الورقية.