नीति सीखना
कार्यों के लिए अवलोकनों का मानचित्रण - रोबोट नियंत्रण के लिए विज़ुओमोटर नीतियां।
नीति सीखना क्या है?
नीति एक ऐसा फ़ंक्शन है जो अवलोकनों (छवियों, स्थिति) को क्रियाओं (संयुक्त आदेश, ग्रिपर) में मैप करता है। नीति शिक्षण इस मैपिंग को डेटा (नकल) या इनाम (आरएल) से प्रशिक्षित करता है। विसुओमोटर नीतियां प्राथमिक इनपुट के रूप में दृष्टि का उपयोग करती हैं।
प्रमुख वास्तुकला
- अधिनियम (ट्रांसफार्मर के साथ एक्शन चंकिंग) - कार्रवाई खंडों की भविष्यवाणी करता है; सुचारू निष्पादन.
- प्रसार नीति - मल्टीमॉडल एक्शन डिस्ट्रीब्यूशन के लिए डिनोइजिंग डिफ्यूजन।
- व्यवहार क्लोनिंग - डेमो से सरल पर्यवेक्षित शिक्षा।
- VLA - भाषा कंडीशनिंग के साथ विज़न-लैंग्वेज-एक्शन मॉडल (ओपनवीएलए, आरटी-2)।
संबंधित संसाधन
- नीति मॉडल - अधिनियम, प्रसार नीति, ओपनवीएलए, अक्टूबर
- नकल सीखना
- डेटा सेवाएँ - आपकी नीति के प्रशिक्षण के लिए डेटा