नकल सीखना
प्रदर्शनों से सीखना - रोबोट जो टेलीऑपरेशन डेटा से मानव व्यवहार को दोहराते हैं।
अनुकरण सीखना क्या है?
अनुकरण सीखना (आईएल) एक प्रतिमान है जहां एक रोबोट विशेषज्ञ प्रदर्शनों को देखकर और उनकी नकल करके कार्य करना सीखता है। इनाम संकेतों (जैसे कि सुदृढीकरण सीखने में) से सीखने के बजाय, रोबोट मानव टेलीऑपरेशन या गतिज शिक्षण के दौरान एकत्र किए गए राज्य-क्रिया जोड़े से सीखता है।
मुख्य दृष्टिकोण
- व्यवहार क्लोनिंग (बीसी) - (अवलोकन, क्रिया) जोड़ियों से पर्यवेक्षित शिक्षण। सरल लेकिन वितरण में बदलाव की संभावना।
- कटार - पुनरावृत्त डेटा संग्रह: नीति चलाएँ, विशेषज्ञ सुधार प्राप्त करें, फिर से प्रशिक्षित करें। वितरण शिफ्ट कम कर देता है.
- उलटा सुदृढीकरण सीखना (आईआरएल) - प्रदर्शनों से इनाम फ़ंक्शन का अनुमान लगाएं, फिर नीति का अनुकूलन करें।
संबंधित संसाधन
- ओपन-सोर्स डेटासेट - DROID, ब्रिजडेटा, ALOHA, ओपन एक्स-एम्बोडिमेंट
- नीति मॉडल - अधिनियम, प्रसार नीति, ओपनवीएलए, अक्टूबर
- डेटा सेवाएँ - हम आपके कार्यों के लिए सीखने के लिए तैयार प्रदर्शन एकत्र करते हैं