वीएलए और वीएलएम
विज़न-लैंग्वेज-एक्शन और विज़न-लैंग्वेज मॉडल - भाषा-वातानुकूलित रोबोट नियंत्रण।
वीएलए और वीएलएम क्या हैं?
वीएलएम (विज़न-लैंग्वेज मॉडल) - मल्टीमॉडल मॉडल जो छवियों और पाठ दोनों को समझते हैं। कैप्शनिंग, वीक्यूए और ग्राउंडिंग के लिए उपयोग किया जाता है।
वीएलए (विजन-लैंग्वेज-एक्शन) - वीएलएम को आउटपुट रोबोट क्रियाओं तक विस्तारित किया गया। चित्र + भाषा निर्देश, आउटपुट नियंत्रण आदेश (जैसे, संयुक्त स्थिति, ग्रिपर) लें। "लाल ब्लॉक उठाओ" शैली नियंत्रण सक्षम करें।
प्रमुख मॉडल
- ओपनवीएलए — 7बी ओपन-सोर्स वीएलए, 970के डेमो
- आरटी-2/आरटी-एक्स — गूगल का वीएलए परिवार
- अक्तूबर - भाषा कंडीशनिंग के साथ प्रसार नीति
- रोबोफ्लेमिंगो - रोबोट के लिए ओपनफ्लेमिंगो-आधारित वीएलएम
संबंधित संसाधन
- ओपन-सोर्स वीएलए और वीएलएम मॉडल - लिंक के साथ पूरा कैटलॉग
- डेटासेट - भाषा-लेबल हेरफेर डेटा