सुदृढीकरण सीखना

परीक्षण और त्रुटि से सीखना - रोबोट जो इनाम संकेतों से व्यवहार को अनुकूलित करते हैं।

सुदृढीकरण सीखना क्या है?

सुदृढीकरण सीखना (आरएल) एक प्रतिमान है जहां एक एजेंट पर्यावरण के साथ बातचीत के माध्यम से संचयी इनाम को अधिकतम करना सीखता है। एजेंट कार्रवाई करता है, पुरस्कार (या दंड) प्राप्त करता है, और समय के साथ सुधार के लिए अपनी नीति को अद्यतन करता है।

महत्वपूर्ण अवधारणाएं

इनाम का संकेत - कार्य की प्रगति का संकेत देने वाली विरल या सघन प्रतिक्रिया (उदाहरण के लिए, वस्तु पकड़ी गई, लक्ष्य प्राप्त हुआ)।
नीति - अवलोकनों से कार्यों तक मानचित्रण। अक्सर तंत्रिका नेटवर्क (जैसे, पीपीओ, एसएसी)।
सिम-टू-रियल - सिमुलेशन में प्रशिक्षित करें, वास्तविक रोबोटों पर तैनात करें। डोमेन रैंडमाइजेशन अंतर को पाटने में मदद करता है।

सुदृढीकरण सीखना

सुदृढीकरण सीखना क्या है?

महत्वपूर्ण अवधारणाएं

संबंधित संसाधन