← मॉडल

इंटर्नवीएलए-एम1

सामान्यवादी रोबोट नीति के लिए स्थानिक रूप से निर्देशित दृष्टि-भाषा-कार्य रूपरेखा। शंघाई एआई लैब।

सिंहावलोकन

इंटर्नवीएलए-एम1 दो चरणों वाली पाइपलाइन का उपयोग करता है: (1) "कहां कार्य करना है" यह निर्धारित करने के लिए 2.3एम नमूनों पर स्थानिक ग्राउंडिंग पूर्व-प्रशिक्षण, (2) "कैसे कार्य करें" के लिए प्रशिक्षण के बाद स्थानिक रूप से निर्देशित कार्रवाई। मॉड्यूलर, एक्स्टेंसिबल, दोहरे पर्यवेक्षण के साथ।

मानक

  • गूगल रोबोट 71.7% (विडोएक्स), 76.0% (वीएम), 80.7% (वीए)
  • LIBERO 95.9% सफलता
  • SimpleerEnv पर +14.6%, सिंथेटिक सह-प्रशिक्षण के साथ अनदेखी वस्तुओं पर +20.6%

आधिकारिक लिंक

उद्धरण

BibTeX और पेपर संदर्भों के लिए प्रोजेक्ट साइट देखें।