← शब्दावली

नीति सीखना

कार्यों के लिए अवलोकनों का मानचित्रण - रोबोट नियंत्रण के लिए विज़ुओमोटर नीतियां।

नीति सीखना क्या है?

नीति एक ऐसा फ़ंक्शन है जो अवलोकनों (छवियों, स्थिति) को क्रियाओं (संयुक्त आदेश, ग्रिपर) में मैप करता है। नीति शिक्षण इस मैपिंग को डेटा (नकल) या इनाम (आरएल) से प्रशिक्षित करता है। विसुओमोटर नीतियां प्राथमिक इनपुट के रूप में दृष्टि का उपयोग करती हैं।

प्रमुख वास्तुकला

  • अधिनियम (ट्रांसफार्मर के साथ एक्शन चंकिंग) - कार्रवाई खंडों की भविष्यवाणी करता है; सुचारू निष्पादन.
  • प्रसार नीति - मल्टीमॉडल एक्शन डिस्ट्रीब्यूशन के लिए डिनोइजिंग डिफ्यूजन।
  • व्यवहार क्लोनिंग - डेमो से सरल पर्यवेक्षित शिक्षा।
  • VLA - भाषा कंडीशनिंग के साथ विज़न-लैंग्वेज-एक्शन मॉडल (ओपनवीएलए, आरटी-2)।

संबंधित संसाधन