← शब्दावली

वीएलए और वीएलएम

विज़न-लैंग्वेज-एक्शन और विज़न-लैंग्वेज मॉडल - भाषा-वातानुकूलित रोबोट नियंत्रण।

वीएलए और वीएलएम क्या हैं?

वीएलएम (विज़न-लैंग्वेज मॉडल) - मल्टीमॉडल मॉडल जो छवियों और पाठ दोनों को समझते हैं। कैप्शनिंग, वीक्यूए और ग्राउंडिंग के लिए उपयोग किया जाता है।

वीएलए (विजन-लैंग्वेज-एक्शन) - वीएलएम को आउटपुट रोबोट क्रियाओं तक विस्तारित किया गया। चित्र + भाषा निर्देश, आउटपुट नियंत्रण आदेश (जैसे, संयुक्त स्थिति, ग्रिपर) लें। "लाल ब्लॉक उठाओ" शैली नियंत्रण सक्षम करें।

प्रमुख मॉडल

  • ओपनवीएलए — 7बी ओपन-सोर्स वीएलए, 970के डेमो
  • आरटी-2/आरटी-एक्स — गूगल का वीएलए परिवार
  • अक्तूबर - भाषा कंडीशनिंग के साथ प्रसार नीति
  • रोबोफ्लेमिंगो - रोबोट के लिए ओपनफ्लेमिंगो-आधारित वीएलएम

संबंधित संसाधन