إنترنفلا-M1
إطار الرؤية واللغة والعمل الموجه مكانيًا لسياسة الروبوت العامة. مختبر شنغهاي للذكاء الاصطناعي.
ملخص
يستخدم InternVLA-M1 خط أنابيب من مرحلتين: (1) التدريب المسبق على التأريض المكاني على 2.3 مليون عينة لتحديد "مكان التصرف"، (2) العمل الموجه مكانيًا بعد التدريب على "كيفية التصرف". وحدات، قابلة للتوسيع، مع إشراف مزدوج.
المعايير
- جوجل روبوت 71.7% (WidowX)، 76.0% (VM)، 80.7% (VA)
- LIBERO نجاح 95.9%
- +14.6% في SimplerEnv، +20.6% في الكائنات غير المرئية مع التدريب الاصطناعي المشترك
الروابط الرسمية
- internrobotics.github.io/internvla-m1 - موقع المشروع
- github.com/InternRobotics/InternVLA-M1 — الكود (مع)
- معانقة الوجه: InterRobotics - النماذج ومجموعات البيانات
الاقتباس
راجع موقع المشروع لـ BibTeX والمراجع الورقية.