इंटर्नवीएलए-एम1
सामान्यवादी रोबोट नीति के लिए स्थानिक रूप से निर्देशित दृष्टि-भाषा-कार्य रूपरेखा। शंघाई एआई लैब।
सिंहावलोकन
इंटर्नवीएलए-एम1 दो चरणों वाली पाइपलाइन का उपयोग करता है: (1) "कहां कार्य करना है" यह निर्धारित करने के लिए 2.3एम नमूनों पर स्थानिक ग्राउंडिंग पूर्व-प्रशिक्षण, (2) "कैसे कार्य करें" के लिए प्रशिक्षण के बाद स्थानिक रूप से निर्देशित कार्रवाई। मॉड्यूलर, एक्स्टेंसिबल, दोहरे पर्यवेक्षण के साथ।
मानक
- गूगल रोबोट 71.7% (विडोएक्स), 76.0% (वीएम), 80.7% (वीए)
- LIBERO 95.9% सफलता
- SimpleerEnv पर +14.6%, सिंथेटिक सह-प्रशिक्षण के साथ अनदेखी वस्तुओं पर +20.6%
आधिकारिक लिंक
- internrobotics.github.io/internvla-m1 -परियोजना स्थल
- github.com/InternRobotics/InternVLA-M1 — कोड (साथ)
- गले लगाना चेहरा: इंटर्नरोबोटिक्स - मॉडल और डेटासेट
उद्धरण
BibTeX और पेपर संदर्भों के लिए प्रोजेक्ट साइट देखें।