सुदृढीकरण सीखना
परीक्षण और त्रुटि से सीखना - रोबोट जो इनाम संकेतों से व्यवहार को अनुकूलित करते हैं।
सुदृढीकरण सीखना क्या है?
सुदृढीकरण सीखना (आरएल) एक प्रतिमान है जहां एक एजेंट पर्यावरण के साथ बातचीत के माध्यम से संचयी इनाम को अधिकतम करना सीखता है। एजेंट कार्रवाई करता है, पुरस्कार (या दंड) प्राप्त करता है, और समय के साथ सुधार के लिए अपनी नीति को अद्यतन करता है।
महत्वपूर्ण अवधारणाएं
- इनाम का संकेत - कार्य की प्रगति का संकेत देने वाली विरल या सघन प्रतिक्रिया (उदाहरण के लिए, वस्तु पकड़ी गई, लक्ष्य प्राप्त हुआ)।
- नीति - अवलोकनों से कार्यों तक मानचित्रण। अक्सर तंत्रिका नेटवर्क (जैसे, पीपीओ, एसएसी)।
- सिम-टू-रियल - सिमुलेशन में प्रशिक्षित करें, वास्तविक रोबोटों पर तैनात करें। डोमेन रैंडमाइजेशन अंतर को पाटने में मदद करता है।
संबंधित संसाधन
- एक सेवा के रूप में आरएल पर्यावरण — आपकी टीम के लिए वास्तविक दुनिया का आरएल वातावरण
- सिम-टू-रियल ट्रांसफर - अनुकरण और वास्तविकता को जोड़ना
- डेटा सेवाएँ - आरएल फाइन-ट्यूनिंग के लिए वास्तविक दुनिया का डेटा